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上 无 愧 是 计算 机 网 络 领 域 中 的 一 本 好 书 
一 一 Mahasweta Sarkar， 对 地 亚 哥 州立 大 学 


“ 林 书 对 实际 实现 细节 的 介绍 非常 突 


“本 书 由 RFC 和 开源 贡献 者 书写 ， 它 理所当然 是 网 络 王 程 师 的 权威 指导 


一 一 Wen Chen， 思 科 会 员 


为 了 弥 补 了 长 期 以 来 设计 与 实现 之 间 存 在 的 差距 ， 素 书 对 协议 设计 的 实现 进行 了 描述 ， 使 之 成 范 
一 本 理想 的 教科 书 
一 一 Mario Gerla， 吕 州 大 学 浴 杉 仙 分 校 


本 书 讲述 了 为 什么 设计 一 个 有 效 的 协议 比 了 解 一 个 协议 如 何 工作 更 重要 ， 在 解释 协议 行为 的 同时 还 介绍 了 它 的 
核心 概念 和 基本 原理 。 为 了 进一步 弥补 长 期 以 来 设计 和 实现 之 间 存 在 的 差距 ， 书 中 讨论 了 在 何 处 以 及 如 何 基于 Linux 
系统 实现 协议 的 设计 。 本 书 详细 、 全 面 地 介绍 了 包括 硬件 ( 8B/10B、OFDM、CRC32、CSMA/CD 和 crypto ) 、 驱 动 
程序 ( 以 太 网 和 PPP ) 、 内 核 ( 最 长 前 缀 匹配 、 校 验 和 、NAT、TCP 流 量 控制 、 套 接 字 、 整 形 器 、 调 度 器 、 防 火 墙 
和 VPN ) ， 以 及 后 台 程 序 (RIP/OSPF/BGP、DNS、FTP、SMTP/POP3/IMAP4、HTTP、SNMP、SIP、 流 媒体 和 
P2P ) 实现 的 56 个 开源 实例 。 


本 书 特 点 
@ 逻辑 推理 为 什么 、 哪 里 以 及 如 何 设计 和 实现 协议 。 
@ 56 个 开源 代码 明确 地 描述 了 核心 协议 和 机 制 。 
@ 4 个 附录 介绍 因特网 、 开 源 社 区 、Linux 内 核 、 开 发 工具 和 网 络 工具 。 
@ 包含 69 个 有 关 历 史 演 变 ， 、 行 动 原则 ( 26 ) 和 性 能 问题 ( 10 ) 的 工具 条 。 
9 每 章 后 面 都 有 常见 问题 解答 和 “常见 陷阱 ”。 
@ 课堂 所 用 PPT 以 及 习题 ee mhhe.cormlin 获 得 。 
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| 出 版 者 的 话 | 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 个 领域 
取得 了 歼 断 性 的 优势 ;也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 独 领 风 坚 
在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 的 许多 泰山 北斗 同时 和 吴 
处 科 人 研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 骨科 学 将 作 ， 不 仅 辟 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 
既 遵 循 学 术 规 范 ， 又 特有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 

近年 ， 在 全 球 信 息 化 大 漳 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 益 迫切 ， 
这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ;而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 
在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 儿 十 年 间 积 淀 和 发 展 
的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 
发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华 章 公 司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 我们 就 将 工作 重点 
放 在 了 六 选 、 移 详 国 外 优秀 教材 上 上， 经 过 多 年 的 不 懈 和 努力， 我 们 与 Pearson ，MeGraw Hill，Elsevier， 
MIT，jJohn Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 , 从 他 们 现 有 的 数 百 种 教 
材 中 是 选 出 Andrew S. Tanenbaum，Bjame Stroustrup ，Brain W. Kemighan, Dennis Ritchie, Jim Gray, 
Afred V. Aho, John E. Hoperoft, Jeffrey D. Ullman, Abraham Silberschatz, William Stallings, Donald 下 . 
Knuth，John L。，Hennessy，Larry L，Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 从 书 ” 为 总 
你 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 器 力 训 助 ， 国 内 的 专家 不 仅 提供 了 中 肯 的 选 
题 指 导 ， 还 不 辞 劳 若 地 担任 了 翻译 和 审 校 的 车 作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 
的 还 专程 为 其 书 的 中 详 本 作 序 ， 迁 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品种 ， 这 些 书 籍 在 读 
者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 其 影印 版 “经 典 原 版 书库 ”作为 
姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 ， 

权威 的 作者 、 经 典 的 教材 、 一 流 的 泽 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 书 有 了 
贡 量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 
计算 机 教材 的 需求 和 应 用 都 将 步 入 一 个 新 的 阶段 ,我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达 
到 这 一 终极 日 标的 重要 帮助 。 华 章 公 司 欢 迎 老 师 和 读者 对 我 们 的 工作 提出 建议 或 给 巴 指 正 ， 我 们 的 联 
系 方法 如 下 : 


华章 网 站 : www. hzbook. com 
电子 邮件 : hzjsj@ hzbook. com 
联系 电话 : (010) 88379604 2 Bo0rs 


联系 地 址 : 北京 市 同城 区 百 万 庄 南 街 1 号 
邮政 编码 :100037 华章 科技 图 书 出 版 中 心 
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Ying-Dar Lin 、Ren-Hung Hwang 和 Fred Baker 等 人 的 《计算 机 网 络 : 一 种 开源 的 设计 实现 方法 》 一 
$B 全面 窗 凑 了 计算 机 网 络 所 涉及 的 内 容 ， 包 括 与 技术 相关 的 以 及 技术 之 外 的 内 容 ， 并 探讨 了 计算 机 网 
络 的 最 新 进展 和 研究 成 果 ， 婚 是 一 林 不 可 多 得 的 教科 书 ， 同 时 又 是 一 本 全 面 翔 实 的 技术 手册 。 它 是 目 
前 国内 外 出 版 的 计算 机 网 络 教 材 中 第 一 本 以 开放 源 代 码 实现 方法 讨论 网 络 层 及 其 应 用 和 相关 实现 问题 
的 教科 书 ， 本 书 通过 提供 56 个 开放 源 代码 的 形式 ,缩短 了 理论 知识 与 实际 动手 能 力 之 间 的 差距 ,学 生 
通过 实际 动手 并 在 本 书 的 全 面 指导 下 进行 学 习 就 可 以 对 网 络 有 更 加 深刻 的 理解 ， 动 手 能 力也 将 得 到 实 
质 性 的 提高 。 目 前 有 关 计 算 机 网 络 的 几 环 国内 外 经 典 教材 各 有 千秋 ,本 书 则 是 其 中 将 理论 知识 与 实际 
代码 结合 最 紧密 的 ， 因 此 可 以 有 效 解 决 目前 网 络 课 程 教学 中 所 面临 的 学 生 虽 然 学 习 过 计算 机 网 络 相应 
课程 但 知 其 然 不 知 其 所 以 然 的 问题 。 所 以 ， 本 书 首先 是 广大 计算 机 网 络 教 师 手 边 不 可 多 得 的 教学 参考 
书 ， 其 次 对 于 立志 网 络 教学 方法 改革 的 教师 可 选 做 教材 ， 那 么 就 可 以 结合 基本 理论 的 开放 源 代 码 的 实 
际 项 目 实现 ， 提 高 学 生 阅 读 代 码 的 能 万 以 及 网 络 编程 的 能 力 和 参与 项 目的 能 力 。 总 之 ,高 等 院 校 计算 
机 网 络 相 关 专 业 的 学 生 、 和 研究生、 科研 人 员 以 及 有 一 定 基础 的 非 专 业 人 士 都 能 够 从 本 书 中 获 益 良 多 。 
虽然 本 书 涉及 的 内 容 比 较 专 业 ， 但 诗 言 通俗 易 懂 、 内 容 由 浅 入 深 、 结 构 层 次 清晰 ， 而 且 使 用 了 大 量 的 
图 形 和 开放 源 代码 帮助 读者 理解 书 中 的 内 容 。 我 们 相信 本 书 会 给 读者 带 来 全 新 的 感受 与 体验 

本 书 共 分 8 章 ， 分 别 介绍 计算 机 网 络 基 础 知识 、 物 理 层 、 链 路 层 、 网 络 层 、 传 输 层 、 应 用 层 、 服 
务 质量 和 网 络 安全 的 主体 。4 个 附录 内 容 则 是 为 了 便于 不 熟悉 Linux 的 读者 阅读 本 书 而 提供 的 必要 
知识 

我 们 接受 机 械 工业 出 版 社 的 委托 翻译 本 书 ， 一 方面 是 为 了 丰富 国内 有 关 计 算 机 网 络 方面 的 教材 ， 
同时 也 可 以 在 翻译 过 程 中 学 习 先 进 知 识 从 而 促进 相应 的 科研 工作 。 本 书 由 武汉 工程 大 学 计算 机 科学 与 
太 程 学 院 陈 向 阳 、 吴 云 掺 以 及 湖北 省 档案 局 徐 蓉 负 责 翻 译 ， 刘 军 、 徐 清 、 蹇 贝 、 费 蔷 、 周 开 武 、 周 洁 、 
孙 殉 华 、 於 照 、 杜 婷 、 罗 雅 丹 、 张 敏 等 对 本 书 的 翻译 提供 了 一 定 的 帮助 ,在 此 特别 致 以 衷心 的 感谢 ! 
本 书 的 翻译 得 到 了 武汉 工程 大 学 研究 生 教 材 建设 项 目的 资助 ， 还 得 到 了 湖北 省 教育 科学 “十 二 五 ” 规 
划 2013 年 度 立 项 课题 “地 方 性 高 校 新 兴 交 叉 学 科 建 设 的 研究 一 一 以 网 络 科 学 为 例 (项 目 编号 
2013B060)” 的 资助 。 

在 翻译 时 ， 因 为 本 书 涉及 广泛 的 领域 ， 具 体 包括 应 用 数学 、 计 算 机 科学 、 计 算 机 应 用 、 密 码 学 、 
网 络 工程 等 领域 ， 挑 战 在 所 难免 。 虽 然 我 们 花 了 大 量 的 时 间 和 精力 来 翻译 本 书 ， 但 仍 可 能 存在 错误 和 
不 到 之 处 。 如 果 在 使 用 本 书 时 发 现 我 们 翻 详 中 的 纹 涯 和 错误 或 者 有 更 好 的 建议 ， 散 请 联系 译 者 (xian- 
&yangchensun@ yahoo. com 和 xychensun@ aliyun. com)。 我 们 期 望 与 您 一 起 努力 ， 共 同 做 好 计算 机 网 络 的 
教学 和 研究 。 





译 者 
2013 年 12 月 


| 前 言 


Compuler Networks: An Open Source Approach 


网 络 课程 的 发 展 趋势 

计算 机 网 络 中 的 技术 已 经 经 历 了 很 多 代 的 演变 。 许 多 技术 失败 了 或 途 渐 消失 了 ， 击 有 些 技 术 流 行 
起 来 ， 还 有 些 技术 目前 正在 孕育 即将 面市 . 由 TCPYIP 驱动 的 因特网 技术 目前 成 为 主流 。 因 此 ， 计 算 机 
网 络 课程 内 容 组 织 的 一 个 明显 趋势 就 是 有 间 绕 TCPZ 耻 来 进行 ， 再 加 上 一 些 更 底层 的 链 路 技术 和 许多 上层 
应 用 ， 同 时 也 删 去 了 一 些 过 时 技术 的 详细 介绍 ， 或 许 要 解释 它们 为 什么 会 过 时 。 

计算 机 网 络 教科 书 也 已 经 经 历 了 多 次 演变 ， 从 传统 的 并 且 有 时 枯 烛 的 协议 描述 到 应 用 驱动 的 自 顶 
向 下 的 实现 方法 和 系统 化 的 实现 方法 。 趋势 之 一 就 是 除了 解释 协议 行为 如 何 工 作 外 ,更 多 地 解释 为 什 
么 会 这 样 ， 以 便 读者 可 以 更 好 地 理解 各 种 协议 的 设计 。 当 然 ， 演变 还 在 继续 


设计 与 实现 之 间 的 差距 

男 外 一 个 不 那么 明显 的 趋势 就 是 为 协议 的 描述 添加 了 实用 特色 。 其 他 教科 书 的 读者 可 能 不 知道 协 
议 设计 在 哪里 以 及 如 何 实现 。 最 终 只 会 让 读者 在 进入 研究 生 院 做 研究 时 ， 往 往 只 会 采用 仿真 的 方法 对 
性 能 进行 评估 ， 而 不 是 使 用 具有 真实 基准 测试 的 实际 实现 。 那 么 当 他 们 毕业 后 工作 时 就 又 要 从 头 开始 
学 习 实现 环境 、 技 巧 和 相关 问题 。 很 显然 采用 这 些 教科 书 培训 过 的 学 生 在 理论 知识 和 技能 之 间 必 然 存 
在 很 大 差距 。 这 种 差距 可 以 很 容易 用 从 开源 社区 获得 的 正在 使 用 的 代码 来 弥补 。 


一 种 开源 的 实现 方法 

目前 几乎 所 有 正在 使 用 的 协议 已 经 在 Linux 操作 系统 和 许多 开源 软件 包 中 得 到 实现 。Linux 和 着 源 
社区 正在 不 断 地 成 长 壮大 ， 他 们 的 应 用 在 网 络 世 界 中 占据 着 主导 。 但 是 ,他 们 所 提供 的 资源 还 不 能 被 
计算 机 科学 ， 更 确切 地 说 是 计算 机 网 络 中 的 教科 书 所 阐述 .我 们 预测 一 种 教科 书 的 发 展 趋势 ， 对 于 多 
门 课程 可 以 补充 支持 开放 源 代码 资源 以 便 缩小 专业 领域 知识 和 动 手 技能 之 间 的 差距 ,这些 课程 包括 操 
作 系 统 〈 利 用 Linux 内 核实 现 作为 进程 管理 、 内 存 管理 、 文 件 系统 管理 、LO 管理 等 的 例子 ) 、 计 算 机 
组 成 原理 (利用 www. opencores. org 中 的 verilog 代码 作为 处 理 器 、 内 存单 元 、LO 设备 控制 器 等 的 例 
子 ) 、 算 法 〈 利 用 GNU 库 作 为 经 典 算 法 的 例子 ) 以 及 计算 机 网 络 (利用 开放 源 代码 作为 协议 实现 的 例 
子 ) 。 本 书 将 是 证 明 这 种 发 展 趋势 的 一 个 最 早 例子 。 

我 们 的 开放 源 代码 方法 通过 在 协议 行为 描述 中 穿插 介绍 从 开放 源 代 码 软件 包 中 提取 的 样 例 实 现 来 
弥补 上 述 差距 。 这 些 例 子 清楚 地 进行 了 编号 ， 例 如 开放 源 代码 实现 3.4。 本 书 中 还 包括 了 可 以 下 载 完 
整 可 用 例子 的 源 代 码 站 点 ， 这 样 学 生 可 以 很 容易 地 在 因特网 上 访问 这 些 内 容 。 例 如 ， 在 解释 了 路 由 表 
查询 中 的 最 长 前 组 匹配 概念 之 后 ， 我 们 接着 演示 了 路 由 表 是 如 何 组 织 的 〈 根 据 前 绥 长 度 排 序 的 散 列 表 
数组 ) ， 以 及 在 Linux 内 核 中 如 何 实 现 匹配 (如 首次 匹配 ， 匹 配 过 程 是 从 最 长 前 级 的 散 列 表 开 始 的 ) 
这 样 就 能 够 讲解 路 由 表 查 询 的 设计 及 其 实现 ， 并 提供 扎实 的 动手 练习 项 目 ， 例 如 ， 描 述 路 由 表 查 询 的 
瓶颈 或 者 修改 散 列 表 的 实现 ,我 们 认为 这 种 穿插 介绍 方法 要 比 单独 采用 另外 一 门 课 或 另外 一 本 教科 书 








VI 


更 好 。 这样 做 会 更 加 有 利于 普通 学 生 学 习 ， 因 为 可 以 将 设计 与 实现 结合 起 来 ， 并 且 大 多 数学 生 并 不 需 
费 第 二 门 课程 。 若 还 需要 采用 其 他 教科 书 ， 指 导 教 师 、 助 教 和 学 生 就 必须 额外 努力 去 浆 补 忽略 的 或 者 
在 大 多 数 情 况 下 根本 就 没有 触及 的 差距 

本 书 中 的 协议 描述 穿插 了 有 代表 性 的 56 个 开放 源 代码 实现 ,涉及 范围 包括 从 编 解码 器 ( codec) 
的 Verilog 或 VHDL 人 码 、 调 制 解 调 融 、CRC32、CSMA/ACD 和 密码 技术 ， 到 适 配 右 驱动 带 的 C 代码 、PPP 
后 台 守 护 程序 和 驱动 程序 、 最 长 前 级 匹配 、IPATCPAUDP 校 验 和 、NAT、RIPZOSPFZBCP 路 由 后 台 守 护 
程序 、TCP 慢 启动 和 拥 寨 避免 、 套 接 字 (socket)， 流行 的 软件 包 支 持 DNS、FTP、SMTP、POP3、 
SNMP、HTTP、SIP、 流 、P2P， 钊 QoS 功能 ， 如 流量 整形 器 和 调度 器 ， 以 及 安全 功能 ， 如 防火 增 、VPN 
和 入 侵 检测 。 这 种 系统 认 知 可 以 通过 每 个 源 代码 实现 最 后 和 每 章 最 后 的 动手 练习 得 到 加 强 ， 读 者 需要 
运行 、 搜 索 、 追 踪 、 描 述 轮 廊 或 修改 特定 内 核 代 码 段 、 驱 动 程序 或 守护 程序 .学生 若 具备 了 这 种 系统 
认 知 和 操作 技能 ， 加 二 他 们 的 协议 专业 领域 知识 ， 就 能 在 学 术 上 进行 扎实 的 研究 工作 并 在 业界 进行 扎 
实 的 开发 任务 。 


理解 协议 为 什么 被 设计 成 某 种 方式 要 比 了 解 协议 如 何 工作 更 加 重要 

编写 本 书 的 理念 是 理解 为 什么 协议 被 设计 成 某 种 方式 要 比 了 解 协 议 如何 工 作 更 加 重要 。 在 解释 
有 关机 制 或 协议 如 何 工作 之 前 先 用 图 示 说 明 大 多 数 关键 概念 和 基本 原理 。 它 们 包括 无 状态 、 控 制 平 
面 和 数据 平面 、 路 由 和 交换 、 冲 突 和 广播 域 、 桥 接 的 可 扩展 性 、 无 类 和 有 类 路 由 、 地 址 翻译 和 配置 、 
转发 与 路 由 、 窗 口 流量 控制 、RTT 估计 、 知 名 端口 和 动态 端口 、 选 代 服 务 器 ( 又 称 为 循环 服务 器 ) 


和 并 发 服务 器 、ASCI 应 用 协议 消息 、 可 变 长 度 与 回 定 字段 协议 消息 、 透 明代 理 ， 以 及 许多 其 他 
内 容 ， 

曲解 与 理解 一 样 重要 ， 它 们 值得 特殊 处 理 以 便 明 确 标示 区 分 出 来 ,每 一 章 都 是 先 从 一 般 问 题 开 始 ， 
然后 再 提出 基本 的 问题 。 我 们 已 经 添加 了 行动 原则 、 历 史 演 变 和 性 能 问题 等 工具 条 - 我 们 以 无 编号 的 
常见 陷阱 (读者 社区 常见 的 误解 )、 进 一 步 阅 读 、 常 见 问 题解 答 (读者 预习 和 复习 的 大 问题 ) ， 以 及 一 


组 动手 练习 和 书面 练习 的 小 节 作为 结束 


读者 预备 的 技能 

无 论 指导 教师 还 是 学 生 熟 悉 Linux 系统 与 否 都 不 应 该 成 为 采用 本 书 的 决定 因素 。 与 Linux 相关 的 动 
手 练习 技 蕊 在 附录 B、C 、D 中 进行 了 全 面 介绍 。 这 三 个 附录 会 让 读者 具有 足够 的 动手 操作 技巧 ， 包 括 
Linux 内 核 概 述 〈( 带 有 源 代 码 跟踪 的 指导 )、 开 发 工具 (vim、gcc、make、gdb、ddd、kgdb、 
cscope、cvs/svn、gprof/kernprof 、busybox 、buildroot) 、 网 络 工 具 (host、arp、ifcon- 
fig、Ping、traceroute 、tcpdump、wiresharKk、netstat 、ttcp、webbench、ns、nist-net、 
nessus)。 附 录 A 中 还 有 一 节 向 读者 介绍 开放 源 代 但 资源 。 在 第 1 章 中 还 包括 有 关 “ 数 据 包 的 生命 历 
程 ” 一 生 ， 它 生动 地 图 解 了 本 书 的 路 标 。 

在 教学 中 ， 对 降低 采用 开放 源 代码 实现 过 到 的 障碍 也 进行 了 考虑 。 本 书 不 是 采用 代码 列表 和 解释 ， 
市 是 在 需要 时 将 它 结 构 化 组 织 到 概述 、 框 图 、 数 据 结构 、 算 法 实现 和 练习 中 。 这 样 学 生 和 指导 教师 都 
易于 使 用 


| 


教学 特点 和 补充 材料 

教科 书 一 般 郁 具有 很 多 特点 以 便 带 助 读者 ， 有 具有 许多 课 沉 支持 材料 以 便 玫 助 指 导 教 师 。 本 书 上 有 具有 
很 多 特点 和 课堂 支持 材料 ， 总 结 如 下 : 

1) 56 个 明确 编号 的 关键 协议 和 机 制 的 开放 源 代 码 实 现 

2) 4 个 附录 分 别 介 绍 互联 网 和 开源 社区 的 名 人 并 (重要 人 物 ) 、Linux 内 核 概述 、 开 发 工具 和 网 络 
实用 工具 

3) 最 辑 推理 协议 为 什么 、 哪 里 以 及 如 何 疫 计 和 实现 。 

4) 在 每 草 的 开头 以 一 般 问题 作为 激励 ， 回 答 以 大 的 问题 作为 结尾 

5)“ 数 据 包 的 生命 历程 ”从 服务 问 和 路 由 器 的 角度 演示 本 书 的 路 标 并 演示 如 何 跟 路 代码 中 的 数据 
包 流 

6) 在 每 章 最 后 图 解 的 “常见 陷阱 ”， 标 示 出 常见 的 误解 

7) 除了 书面 练习 之 外 ,还 有 基于 Linux 的 动手 练习 

8) 给 出 69 个 有 关 历 史 泻 变 、 原 理 、 行 动 厚 则 和 性 能 问题 的 板块 。 

9) 每 章 最 后 的 常见 问题 解答 有 助 于 读者 抓 住 主要 问题 回答 并 便于 在 读 完 每 一 音 后 进行 复习 

10) 课 向 支持 材料 ， 人 包括 PowerPoint 演讲 幻灯 片 、 习 题解 答 ， 并 且 在 PowerPoint 中 采用 的 所 有 教材 
图 片 都 可 以 从 课本 的 网 站 (www. mhhe. comnylin) 中 找到 。 


读者 和 课程 路 标 指南 
本 书 可 作为 计算 机 科学 或 电子 工程 的 高 年 级 本 科 生 或 一 年 级 人 研究 生 的 计算 机 网 络 教材 ， 也 可 供 数 
据 通 信行 业 的 专业 工程 师 使 用 。 对 于 本 科 生 的 课程 ， 我 们 建议 指导 老师 仅 齐 解 第 1 ~6 章 。 作 为 研究 生 
的 课程 ， 应 该 讲解 所 有 的 章节 。 对 于 既 要 为 本 科 生 又 此 为 研究 生 授 课 的 指导 老师 ， 遇 种 其 他 可 能 的 区 
别 在 于 研究 生 课程 会 有 更 重 的 动手 练习 和 祷 外 的 阅读 作业 布 剖 .不 管 是 本 科 生 还 是 全 究 生 课 程 ， 指 导 
教师 者 可 以 让 学 生 在 前 儿 周 学 习 附 录 以 使 于 热 悉 Linux 及 其 开发 和 应 用 工具 .这 种 熟悉 程度 媳 可 以 通 
过 动手 练习 测试 ， 也 可 以 通过 动手 练习 作业 来 检验 ,在 整个 课程 中 ， 既 可 以 布置 书面 练习 ， 也 可 以 布 
壮 动 手 练习 以 便 加 强 知识 和 技 马 的 掌握 
本 书 各 章 的 内 容 组 织 如 下 : 
。 第 1 章 为 网 络 的 需求 和 原理 提供 了 背景 知识 ， 然 后 给 出 互联 网 解决 方案 来 满足 由 基本 原理 提出 
的 需求 。 网 示 了 互联 网 的 设计 理念 ， 如 无 状态 的 、 无 连接 的 ， 以 及 端 对 端 参 数 。 在 整个 过 程 
中 ， 我 们 介绍 了 关键 概念 ， 包括 连接 性 、 可 扩展 性 、 资 源 共 享 、 数 据 和 控制 平面 、 分 组 与 电路 
交换 、 延 识 、 乔 吐 量 、 带 宽 、 负 载 、 丢 包 、 抖 动 、 标 准 和 互 操作 性 、 路 由 和 分 组 。 接 下 来 ， 我 
们 将 以 Linux 作为 互联 网 解决 方案 的 实现 ， 以 便于 演示 互联 网 体系 结构 及 其 协议 在 哪里 以 及 如 
何在 芯片 、 驱 动 程序 、 内 核 和 后 台 守 护 程序 中 实现 。 本 章 最 后 以 本 书 路 标 和 “数据 包 的 生命 历 
程 ” 的 有 趣 描述 作为 结束 。 
。 第 2 章 对 物理 层 进行 了 简洁 的 论述 。 本章 首 先 介 绍 有 关 模 拟 和 数字 信和 号、 有 线 和 无 线 媒 体 、 编 
码 、 调 制 和 多 路 复 用 的 概念 。 然后 介绍 有 关 编 码 、 调 制 和 多 路 复 用 的 技术 和 标准 。 两 个 开放 源 
代码 实现 分 别 演示 了 使 用 8BZ10B 编码 和 使 用 OFDM 的 WLAN PHY 的 以 太 网 PHY 的 硬件 实现 


ll 


。 第 3 音 介 绍 了 三 种 主流 链 路 : PPP、 以 太 网 (Ethernet) 和 WLAN。 此 外 ,还 描述 了 蓝牙 Bluetooth) 
和 WiMAX。 然后 介绍 了 通过 第 2 层 桥接 的 局 域 网 互联 。 最 后 ， 详 细 描 述 了 网 络 接口 卡 发 送 和 接 
收 分 组 的 适配器 驱动 程序 。 给 出 了 包括 CRC32 和 以 太 网 MAC 的 硬件 实现 等 10 个 开放 源 代码 
实现 

。 第 4 瘟 讨 论 了 P 层 的 数据 平面 和 控制 平面 。 数 据 平面 讨论 包括 IP 转发 处 理 、 路 由 表 查 找 ， 位 
验 和 、 分 段 、NAT 和 有 争议 的 IPv6， 而 控制 平面 讨论 包括 地 址 管理 、 错 误 、 单 播 路 由 和 
组 播 路 由 ， 详 述 了 路 由 协议 和 算法 ，12 个 开放 源 代码 实现 穿插 其 中 阅 述 了 这 些 设计 是 如 何 实 
现 的 

。 第 5 章 上 | 升 旬 传输 层 ， 讲 述 有 关 端 到 端 或 主机 到 主机 之 间 的 问题 。 详细 讲解 了 UDP 和 TCP， 特 
别 是 有 关 TCP 的 设计 理念 、 行 为 和 版 本 。 然 后 介绍 了 用 于 实时 多 媒体 流量 的 RTP。 随 后 还 用 专 
门 的 一 和 节 内 容 演示 了 和 套 接 字 的 设计 与 实现 ， 这 里 分 组 在 内 核 空间 和 用 户 空 间 之 问 复制 ,给 出 了 了 
10 个 开放 源 代码 实现 
。 第 6 章 既 介绍 传统 的 应 用 , 包括 DNS、Mail、FTP、Web 和 SNMP， 也 介绍 新 的 应 用 ,包括 VoIP、 
流 媒体 和 P2P 应 用 。 对 实现 这 8 种 应 用 的 开放 源 代码 软 件 包 进 行 了 讨论 。 

。 第 7 章 介 绍 了 有 关 QoS 的 高 级 话题 ,讲述 了 各 种 流量 控制 模块 ， 如 策略 费 、 整 形 带 、 调 度 占 、 
丢弃 髓 以 及 许可 控制 。 尽 管 IntServ 和 DiffServ 标准 框架 没有 得 到 广泛 的 部 署 ， 但 这 些 流量 控制 
模块 中 的 许多 已 经 嵌入 我 们 日 常 使 用 的 产品 中 : 因此 它们 值得 专门 利用 完整 的 一 章 来 叙述 .给 
出 了 6 个 开放 源 代码 实现 

。 第 8 前 深入 学 习 网 络 安 全 问题 ， 范 肝 包 括 访问 安全 (由 TCPAIP 防火 墙 和 应 用 防火 墙 来 保护 ) 
数据 安全 (由 VPN 来 保护 ) ， 以 及 系统 安全 (由 入 侵 检 测 和 反 病 毒 软件 来 保护 )。 既 介绍 了 算 
法 ( 表 查 找 、 加 密 、 认 证 、 深 度 分 组 检查 ) ， 也 介绍 了 标准 (3DES、MD5 、IPsec )。 最 后 还 增加 
了 8 个 开放 源 代码 实现 . 
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基础 知识 





计算 机 网 络 或 数据 通信 是 有 关 计 算 机 系统 或 设备 之 问 通信 的 一 组 规则 。 它 有 其 自身 的 需求 和 基本 
原理 ， 和 站 从 1969 年 ARPANET ( 美国 国防 部 高 级 研究 计划 局 网 络 ， 后 改名 为 因特网 ) 建立 了 第 一 个 节 


点 后 ， 存 储 转 发 分 组 交换 技术 就 成 为 因特网 体系 结构 ， 这 是 一 个 满足 衙 est 
方案 。 这 种 解决 方案 于 1983 年 与 TCPAIP 协议 套件 融合 ， 此 后 就 开始 了 演变 过 程 

下 联网 ,或 TCPXP 协议 套件 ， 其 实 只 是 恰好 占据 统治 地 位 的 众多 可 能 解决 方案 之 一 ， 当 然 还 存在 
其 他 的 解决 方案 ， 也 能 符合 震 求 并 能 满足 数据 通信 的 基本 原理 ， 例 如 ， 也 是 开发 于 20 世纪 70 年代 的 
X.25 和 开放 系统 下 连 (0S1) ， 却 最 终 被 TCPZIP 所 禁 代 。 异 步 转 移 模 式 (ATM) ， 曾 经 在 20 世纪 90 年 
代 风 靡 一 时 ， 但 因为 难以 与 TCPZP 协议 兼容 而 最 终 消失 了 滩 迹 多 协议 标签 交换 (MPIS) 得 以 幸存 下 
来 ， 因 为 它 从 一 开始 就 是 作为 TCPXIP 协议 的 补充 而 设计 的 ， 

同样 ， 在 各 种 计算 机 系统 或 设备 ri 互联 网 解决 方案 的 实现 其 中 ， 开 源 实现 与 互联 网 架 
构 一 样 共享 同一 种 开放 的 和 自 底 向 上 的 精神 ,为 公众 提供 实际 可 获得 的 软件 源 代码 。 在 这 种 自 底 向 | 
的 方法 中 ， 志 永 者 能 够 页 献 自 己 的 设计 或 实现 ， 同 时 寻求 开发 人 员 社 区 的 支持 和 共识 ， 这 与 受权 威 驱 
动 的 自 项 向 下 的 方法 刚好 相反 。 因 为 是 开源 和 人 免费 提供 ， 所 以 这 些 实现 能 够 作为 各 种 网 络 机 制 如 何在 
特定 情况 下 工作 的 可 靠 的 运行 例子 

在 本 章 中 ， 我 们 让 读者 熟悉 本 书 通 篇 用 到 的 计算 机 网 络 基础 知识 。1. 1 节 通 过 用 连通 性 、 可 扩展 
性 和 资源 共享 对 计算 机 网 络 进行 定义 以 便 标 识 进 行 数据 通信 的 关键 需求 ， 还 介绍 了 分 组 交换 的 概念 
1.2 节 阐 述 了 数据 通信 的 基本 原理 。 首 先 定义 带宽 、 提 供 负 载 、 符 吐 量 、 寻 迟 、 延 迟 变化 和 丢失 等 性 
能 测量 。 然后， 解释 了 用 于 处 理 控制 分 组 和 数据 分 组 的 协议 和 算法 的 设计 问题 。 因 为 互联 网 是 计算 机 
网 络 的 一 种 可 能 解决 方案 ， 所 以 1.3 节 介 绍 了 连通 性 、 可 扩展 性 和 资源 共享 以 及 控制 分 组 和 数据 分 组 
处 理 的 互联 网 版 本 的 解决 方案 。1.4 闻 讨 论 了 开源 实现 是 如 何 进 一 步 在 运行 的 系统 尤其 是 在 Linux 操作 
系统 中 实现 互联 网 解决 方案 。 我 们 说 明了 各 种 协议 和 算法 模块 在 计算 机 系统 的 内 核 、 驱 动 程序 、 守 护 
程序 以 及 控制 器 中 实现 的 原因 和 方式 。 我 们 在 1.5 节 利 用 分 组 经 过 Web 服务 器 和 中 间 互 联 设 备 中 各 种 
模 抉 的 历程 画 出 了 本 书 的 学 习 路 标 。 本 节 还 为 理解 以 后 章节 中 将 描述 的 开源 实现 奠定 基础 。 互 联网 解 
决 方案 的 设计 和 开源 实现 的 贡献 者 ,连同 其 他 县 花 一 现 的 网 络 技术 ， 将 放 在 附录 A 中 作为 本 章 补 充 材 
料 加 以 复习 

通过 本 章 学 习 后 ， 读 者 应 该 能 够 解释 : 1) 为 什么 互联 网 解决 方案 是 以 日 前 这 样 的 方式 设计 的 ; 
2) 这 种 开放 的 解决 方案 是 如 何在 实际 系统 中 实现 的 


1.1 计算 机 网 络 互 联 的 需求 

对 计算 机 网 络 的 一 套 需 求 可 以 转化 为 在 设计 、 实 施 、 操 作 计 算 机 网 络 时 必须 满足 的 一 组 目标 。 多 
年 来 ， 这 组 目标 也 在 逐渐 变化 ， 但 其 核心 再 求 仍 保 持 不 变 :“ 通 过 各 种 共享 媒体 和 设备 连接 越 来 越 多 的 
用 户 和 应 用 程序 ， 以 便 它 们 可 以 相互 通信 .,” 这 人 句 话 表明 数据 通信 的 三 个 需求 以 及 要 解决 的 有 关 问 题 ; 
1 ) 连通 性 : 谁 以 及 如 何 连 接 ; 2) 可 扩展 性 : 有 多 少 连接 ; 3) 资源 共享 : 如 何 利 用 连接 。 本 节 将 介 
绍 这 些 核心 需求 并 讨论 大 多 数 计算 机 网 络 (不 仅 是 互联 网 ) 满足 这 些 需求 的 通用 解决 方案 。 


1.1.1 连通 性 : 节点 、 链 路 、 路 径 

计算 机 网 络 ， 从 连通 性 方面 ， 可 视 为 “从 一 组 节点 和 链 路 构造 的 连通 图 ， 这 里 任何 一 对 节点 可 以 
通过 由 一 系列 联系 起 来 的 节点 和 链 路 组 成 的 路 径 到 达 彼 此 "我们 人 类 用 户 之 间 需 要 连通 性 以 便 交 换 
消息 或 加 入 谈话 ， 应 用 程序 之 间 震 要 连通 性 以 便 维护 网 络 操作 ， 或 者 在 用 户 和 应 用 程序 之 问 需要 连通 
性 以 便 访问 数据 或 服务 。 可 以 使 用 各 种 媒体 和 设备 建立 节点 之 间 的 连通 性 ， 设 备 可 以 是 集线器 、 交 换 
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机 、 路 由 器 或 网 关 ， 而 媒体 可 以 是 有 线 的 或 无 线 的 

节点 : 主机 或 中 间 设 备 

计算 机 网 络 中 的 节点 既 可 以 是 一 台 主 机 也 可 以 是 一 台中 间 互 联 设备 ， 前 者 是 一 台 容 纳 用 户 和 应 
用 程序 的 终端 计算 机 ; 而 后 者 充当 一 个 中 间 节 点 ， 提 供 多 个 链接 接口 连接 主机 或 其 他 中 间 节 点 。 像 
集线器 、 交 换 机 、 路 由 器 和 网 关 等 设备 就 是 常见 的 中 间 节 点 。 与 基于 计算 机 的 主机 不 同 ， 中 间 节 点 
设备 可 能 会 配备 专门 设计 的 CPU 介 载 硬件 以 提高 处 理 速度 或 降低 硬件 和 处 理 成 本 。 随 着 链 路 或 线路 
速度 的 增加 ， 线 速 处 理 既 需要 更 快 的 CPU 也 需要 特殊 的 硬件 ， 如 专用 集成 电路 (ASIC)、 从 CPU 上 
印 载 负荷 。 

链 路 : 点 对 点 或 广播 

计算 机 网 络 中 的 链 路 如 果 正 好 连接 了 两 个 节点 〈 在 每 个 端点 一 个 ) ， 就 称 为 点 对 点 ， 如 果 它 连接 
两 个 以 上 节点 ， 就 称 为 广播 关键 的 区 别 在 于 ， 连 接 到 一 个 广播 链 路 上 的 节点 需要 通过 竞争 获得 发 
送 权 。 如 果 点 对 点 链 路 是 全 双 工 链 路 ， 那 么 通过 其 上 的 节点 间 通 信和 就 可 以 随意 发 送 ; 如 果 是 半 双 工 
链 路 ， 就 会 轮流 发 送 ; 如 果 是 单 工 链 路 ， 则 利用 两 条 链 路 传输 ， 每 个 方向 一 条 链 路 。 即 爹 双 工 链 路 
和 半 双 工 链 路 分 别 支 持 同 时 在 两 个 方 问 或 在 某 时 刻 仅 在 一 个 方向 上 的 双向 通信 ， 而 单 工 链 路 仅 支 持 
单 向 通信 

链 路 的 物理 性 质 既 可 以 是 有 线 的 也 可 以 是 无 线 的 ， 既 可 以 是 点 对 点 也 可 以 是 广播 式 的 。 一 般 情况 
下 ， 有 线 或 无 线 的 局 域 网 CLAN) 中 的 链 路 是 广播 式 的 ， 而 广域网 (WAN) 中 的 链 路 是 点 对 点 的 。 这 
因为 广播 链 路 中 使 用 的 多 路 访问 方法 通常 在 短 距 离 内 更 有 效 ， 这 一 点 我 们 将 在 第 3 章 中 看 到 。 然 而 ， 
也 会 存在 例外 。 例 如 ， 为 广域网 设计 的 基于 卫星 的 ALOHA 系统 使 用 广播 式 的 链 路 。 以 太 网 ， 最 初 为 
局 域 网 设计 的 广播 链 路 ， 已 经 演变 成 无 论 在 局 域 网 还 是 在 广域网 中 都 使 用 的 点 对 点 链 路 





有 线 或 无 线 
对 于 有 线 链 路 ， 常 见 的 媒体 包括 双 绞 线 、 同 轴 电 缆 和 光纤 。 双 绞 线 将 两 根 铜 线 绞 在 一 起 以 获得 对 
噪声 的 更 好 免疫 力 ， 它 们 广泛 用 于 普通 老式 电话 系统 (POTS) 和 局 域 网 (如 以 太 网 ) 的 接 入 线路 。5 


类 (Cat-5) 双 绞 线 比 室内 使 用 的 POTS 线 具 有 更 高 的 规格 ， 可 以 10Mbps 传输 几 千 米 远 或 以 1Cbps 传输 
100 多 米 。 同 轴 电 缆 利用 更 厚 的 逆 料 护 套 将 更 粗 的 铜 线 与 较 细 的 脱 入 铜 线 分 开 ， 适合 十 距离 传输 ， 如 
适用 于 跨越 40 公里 地 区 的 100 个 6MHz 电视 频道 的 有 线 电视 分 发 。 通过 电缆 调制 解 调 咒 ， 某 些 信 道中 
的 每 一 个 ， 可 以 数字 化 为 30Mbps 的 数据 、 语 音 或 者 视频 服务 。 光 纤 具 有 大 容量 ,而 且 它 可 以 将 信号 传 
输 得 更 远 。 光 缆 主 要 用 于 骨干 网 络 (Gbps ~ Tbps) ， 有 时 用 于 本 地 局 域 网 络 (100Mbps ~ 10Cbps) 。 

对 于 无 线 链 路 ， 有 无 线 电 (10 ~10"Hz)、 微 波 (10” ~10mHz)、 红 外 (10 ~10"Hz)， 以 及 其 他 
( 紫外线、X 射线 、 伽 玛 射 线 ) 不 断 提 高 的 传输 频率 数量 级 。 低 频率 〈 低 于 几 个 GHz) 的 无 线 链 路 通 
常 是 广播 式 ， 这 是 全 向 的 ， 而 超过 几 十 GHz 的 高 频率 无 线 链 路 可 能 是 点 对 点 的 ， 方 向 性 会 更 强 。 由 于 
无 线 数据 通信 仍 处 于 于 勃 发 展 的 阶段 ， 所 以 流行 的 系统 包括 无 线 局 域 网 (在 100 米 半 径 范 转 内 ， 
54Mbps ~ 600Mbps 的 数据 传输 速率 ) 、 通 用 分 组 无 线 电 业务 (CPRS) (在 儿 公 里 内 为 128khps) 、3C 
(第 三 代 移 动 通信 ， 在 几 公 里 内 达到 384kbps 到 数 Mbps)、 蓝 牙 (在 10 米 范 于 以 内 ， 数 Mbps) ， 所 有 这 
些 技术 都 工作 在 800MHz ~2GHz 的 微波 频谱 内 


历史 演变 : 链 路 标准 

目前 有 很 多 链 路 标准 用 于 数据 通信 ,我 们 可 将 链 路 分 成 以 下 几 类 : 本 地 、 最 后 一 公里 和 租用 线路 
表 1-1 列 出 了 这 些 链 路 标准 的 名 称 和 数据 率 .。 本 地 链 路 部 署 在 局 域 网 中 使 用 ， 其 中 5 类 (Cat-5) 以 太 
网 和 2.4GHz 无 线 局 域 网 是 两 种 主要 技术 。 前 者 速度 更 快 ， 并 在 5 类 双 绞 线 上 具有 专用 的 传输 信道 ， 但 
后 者 设置 简单 ， 并 支持 更 高 的 移动 性 

所 谓 的 最 后 一 公里 或 第 一 公里 链 路 链接 从 家 庭 或 移动 用 户 到 互联 网 服务 提供 商 (1ISP) 的 “第 一 
公里 ”。 其 中 ， 非 对 称 数 字 用 户 线 (ADSL)、 有 线 电 视 (CATV) 和 光纤 到 楼 (FTTB) 是 最 流行 的 有 
线 链 路 技术 ，3G 和 全 球 微波 互联 接 入 ( WiMAX) 是 目前 最 流行 的 无 线 技术 。POTS 和 综合 服务 数字 网 
(ISDN) 是 过 时 的 技术 。 
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表 1-1 流行 的 有 线 和 无 线 链 路 技术 











有 线 无 线 
本 地 5 类 双 绞 线 以 太 网 (10Mbps ~ 1Cbps) 2.4CHz 频带 WLAN (2 ~54Mbps ~600Mbps) 
POTS (28.8 ~56kbps) 
ISDN (64 ~ 128kbps) GPRS (128kbps) 
最 后 一 公里 ADSI, (16kbps ~ 55.2Mbps) 3G (384kbps 到 数 Mbps) 
CATVY (30Mbps) WiMAX (40Mbps) 


FTTB (10Mbps ~) 





Tl (1.544Mbps) 

T3 (44.736Mbps) 

OC-l (S51.840Mbps) 

OC3 (155,250Mbps) 
租用 线路 OC-12 (622.080Mbps) 
OC-24 (1.244160Cbps) 
OC-48 (2.488320Gbps) 
OC-192 (9.953280Cbps) 
OC=768 (39.813120Gbps) 











对 于 有 线 技术 ，FTTB 比 其 他 技术 更 快 ， 但 也 更 贵 ，ADSL 利用 传统 的 电话 线 ， 并 随 着 到 ISP 距离 
的 增加 ， 传 输 速 率 会 降低 。CATV 租用 电视 同 轴 电缆 ， 它 对 距离 的 限制 较 少 ， 但 需要 与 电视 节目 信号 
共享 带宽 。 如 果 你 需要 一 条 不 经 过 公共 共享 网 络 的 站 点 到 站 点 的 连接 ， 就 可 以 从 运营 商 处 租用 一 条 专 
用 线路 。 在 北美 ， 基 表 昔 痪 下 得 基 的 晓 混 艰 放 外 疾 ， 基于 铜 线 的 数字 信号 1 (DS1，TI) 和 DS3 (T3)、 
各 种 光 STS-x (同步 传输 信号 ，OC-x [ 光 载 波 ]) 链 路 。 后 一 个 选项 虽然 价格 昂贵 ， 但 正 变 得 越 来 越 流 
行 ， 因 为 它 能 够 满足 日 益 增 加 的 带宽 需求 。 

路 径 : 路 由 式 还 是 交换 式 

任何 时 候 要 将 两 个 远程 节点 连接 起 来 就 必须 首先 找到 一 条 路 径 ， 即 一 系列 联系 起 来 的 中 间 链 路 和 
点。 路 径 既 可 以 是 路 由 式 的 也 可 以 是 交换 式 的 。 当 节点 A 要 向 节点 B 发 送 消 息 时 ， 如 果 它 们 可 以 通 
过 非 预先 设 定 的 和 独立 选择 的 路 径 转 发 ， 也 许 经 过 不 同 的 路 径 ， 那么 就 是 对 消息 进行 了 路 由 。 使 用 路 
由 时 ， 将 消息 的 目的 地 地 址 与 “路 由 ” 表 进 行 匹配 以 便 找 到 到 达 目 的 地 的 输出 链 路 。 这 种 匹配 过 程 通 
党 需要 多 次 表 查找 操作 ， 每 次 查找 都 需要 进行 一 次 内 看 访 问 和 一 次 地 址 比较 。 另 一 方面 ， 交 换 式 路 径 
需要 中 间 节 点 建立 路 径 并 且 在 发 送 消息 之 前 在 “交换 ” 表 中 记录 路 径 的 状态 信息 。 然 后 将 要 发 送 的 消 
息 附 加 一 个 索引 号 ， 指 向 存储 在 “交换 ” 表 中 的 某 些 特定 状态 信息 。 交 换 消息 会 容易 地 经 过 一 次 内 存 
访问 就 能 索引 到 表 中 。 因 此 ， 交 换 比 路 由 快 很 多 , 但 是 要 以 建立 连接 的 额外 开销 为 代价 。 

我 们 可 以 将 路 由 式 路 径 看 成 是 中 间 链 路 和 节点 的 无 状态 的 或 无 连接 的 连接 ， 而 将 交换 式 链 路 看 成 
是 有 状态 的 或 面向 连接 的 连接 。ATM 的 所 有 连接 都 是 交换 式 的 ， 也 就 是 说 ， 在 开始 传输 数据 之 前 ， 需 
区 在 源 和 崩 的 弛 过问 妇 裤 一 条 路 短 并 记 村 由 和 检 上 的 所 有 中 间 节 点 。 与 此 相反 ,因特网 是 无 状态 的 、 无 
连接 的 ， 将 在 1.3 节 中 讨论 这 种 无 连接 的 设计 理念 。 


历史 演变 : ATM 的 衰落 

ATM 曾经 被 认为 是 数据 通信 的 骨干 交换 技术 。 与 互联 网 架构 不 同 ，ATM 采用 POTS 的 有 状态 的 交 
换 概 念 : 其 交换 保持 面向 连接 的 状态 信息 以 便 决 定 如 何 交换 连接 。 由 于 ATM 是 在 20 世纪 90 年 代 初 出 
现 的 ， 所 以 它 就 必须 找到 一 种 与 在 当时 占据 主导 的 网 络 技术 一 一 与 联网 架构 并 存 的 方式 。 然 而 ， 将 面 
向 连接 的 交换 与 无 连接 的 路 由 技术 集成 ， 会 产生 大 量 的 开销 。 将 这 两 者 集成 既 可 以 采用 将 ATM 区 域 与 
互联 网 区 域 连接 起 来 的 方式 ， 也 可 以 使 用 ATM 承载 互联 网 分 组 的 分 层 混 合 模式 。 这 两 者 都 需要 找到 现 
有 的 ATM 连接 或 建立 新 的 ATM 连接 ， 但 在 发 送 少 数 分 组 后 就 要 拆除 新 建立 的 ATM 连接 。 而且， 分 层 
混合 方法 粗暴 践 踊 了 互联 网 架构 的 无 状态 性 质 。 这 就 注定 了 ATM 要 退出 市 场 ， 只 不 过 是 时 间 早 晚 的 


问题 
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1.1.2 可 扩展 性 : 节点 的 数量 

能 够 连接 10 个 节点 与 能 够 连接 数 百 万 个 节点 是 完全 不 同 的 。 由 于 能 够 在 小 组 工作 不 一 定 也 能 够 在 
庞大 的 群 组 中 工作 ， 所 以 我 们 需要 一 种 可 扩展 的 方法 来 实现 连通 性 。 因 此 ， 从 可 扩展 性 方面 来 齐 ， 计 
算 机 网 络 必须 能 够 提供 “一 种 可 扩展 到 大 量 节点 的 平台 ， 以 便 能 够 使 每 个 节点 知道 如 何 到 达 任 何其 他 
生起 sa” 

节点 的 层次 化 

将 大 量 节 点 连接 起 来 的 一 个 直接 方法 就 是 将 它们 组 织 成 很 多 组 ， 其 中 每 个 组 由 少数 节点 组 成 ， 如 
盯 组 的 数量 非常 庞大 ， 那 么 可 以 进一步 将 这 些 组 聚合 成 大 量 的 超 组 ， 如 果 有 必要 ， 还 可 以 进一步 聚合 
成 “ 超 超 组 ” 这 种 递归 聚 类 方法 可 以 创建 一 种 可 管理 的 树 状 层次 化 结构 ， 每 个 组 (或 超 组 、“ 超 级 超 
群 ” 等 ) 仅 与 少数 其 他 组 连接 .如果 不 应 用 这 种 集群 . 那么 大 量 节 点 的 互联 网 络 可 能 看 起 来 像 一 个 混 
配 的 网 格 ， 图 1-1 次 明了 40 多 亿 个 入 点 可 以 组 织 连接 成 一 种 简单 的 三 层 层次 化 结构 ， 在 底部 和 中 间 有 
256 个 分 支 ， 在 顶层 有 65 536 个 分 支 。 正 如 我 们 将 在 1.3 节 中 会 看 到 ， 互 联网 采用 了 类 似 的 聚 类 方法 
分 别 将 组 和 超 组 称 为 子 网 和 和 域 

局 四 组 











图 1-1 节点 的 层次 结构 :三 层 层 次 化 结构 中 的 数 亿 个 节点 的 分 组 

局 域 网 、 城 域 网 、 广 域 网 

很 卓然 地 会 利用 位 于 小 范 轩 地 理 区 域 〈 比 如 ， 儿 公里 范围 ) 内 的 节点 形成 底层 组 。 将 小 的 底层 组 
连接 起 来 的 网 络 称 为 局 域 网 络 (LAN)， 对 于 一 个 大 小 为 256 的 组 ， 将 需要 至 少 256 条 (对 于 环形 网 
络 ) 、 最 多 32 640 条 点 对 点 的 链 路 〈 全 互联 网 格 ) 来 建立 连接 。 由 于 在 如 些小 范 于 内 管理 如 此 多 链 路 
将 是 很 及 烦 的 ， 所 以 主要 采用 广播 链 路 ， 通 过 将 所 有 256 个 节点 连接 到 一 条 广播 链 路 〈 使 用 总 线 、 环 
形 或 星 形 拓扑 结构 ) 上 ， 就 很 容易 实现 和 管理 它们 的 连通 性 .一 条 广播 链 路 的 应 用 可 以 扩展 到 了 地理 范 
用 更 大 的 网 络 ， 如 城 域 网 (MAN) ， 以 便 连 接 远 程 的 节点 或 者 基 至 局 域 网 。 城 域 网 通常 有 一 个 环形 折 
扑 ， 从 而 构建 一 条 能 够 实现 链 路 故障 容错 的 双 总 线 。 

然而 ， 这 样 的 广播 环形 安排 对 容错 程度 和 在 网 络 上 能 够 支持 的 节点 或 局 域 网 数量 提出 了 限制 ， 点 
对 点 链 路 本 身 适用 于 无 限制 的 、 广 域 连接 。 广域网 (WAN) 通常 使 用 网 状 拓扑 ， 这 是 由 于 地 理 上 分 散 
的 网 络 站 点 位 置 的 随机 性 所 导致 的 ， 树 形 拓扑 结构 用 在 广 工 网 中 是 低 效 的 ， 因 为 在 树 形 网 络 中 ， 所 有 
的 流量 必须 上 上 传 到 根部 ， 并 在 其 些 分 支 处 下 传 色 达 目 的 地 节点 。 如 果 两 个 叶子 节点 之 间 的 流量 所 大 ， 
那么 树 形 网 络 就 额外 震 要 一 条 点 对 点 链 路 直接 连接 ,这样 就 会 在 拓扑 中 造成 循环 从 而 将 树 状 变 成 网 状 。 

在 图 1-1 中 ,在 默认 情况 下 ,一 个 底层 组 是 利用 集线器 或 交换 机 连接 少 于 256 台 主 机 的 局 域 网 来 
实现 .一 个 中 层 超 组 可 能 通过 路 由 器 将 少 于 256 个 局 域 网 互 连 成 树 状 或 网 状 结构 的 校园 网 或 企业 网 。 
在 项 层 ， 可 能 是 通过 成 干 上 万 的 超 组 以 点 对 点 链 路 连接 而 成 的 网 状 广域网 . 


1. 1.3 资源 共享 


建立 过 可 扩展 的 连接 后 ， 接 下 来 我 们 讨论 如 何 与 网 络 用 户 共享 这 条 连接 ,也 就 是 共享 链 路 和 节点 
的 容量 而且， 从 资源 共享 的 角度 ， 我 们 可 以 将 计算 机 网 络 定义 成 “一 种 共享 平台 ,使 用 节点 和 链 路 
的 容量 在 节点 间 传 送 通信 消息 :” 这 正 是 数据 通信 和 传统 语音 通信 之 间 最 大 的 不 同 
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分 组 交换 与 电路 交换 

在 POTS 中 ， 在 开始 语音 对 话 之 前 ， 必 须 首先 找到 主 叫 方 和 被 叫 方 之 问 的 电路 并 进行 交换 。 在 整 
个 会 话 过 程 中 ， 需 要 为 会 话 方 之 间 维 持 64kbps 电路 ， 即 使 双方 一 直 保 持 沉默 也 是 如 此 : 这 种 专用 的 资 
源 分 配 称 为 电路 交换 技术 ， 它 能 提供 稳定 的 资源 供应 ， 从 而 可 以 在 连续 的 数据 流 (如 视频 或 音频 信 
号 ) 中 维持 高 质量 ， 然而， 电路 交换 不 适用 于 交互 或 文件 传输 应 用 ， 因 为 它们 随时 需要 输入 数据 ， 但 
在 大 部 分 时 间 会 闲置 显然， 为 这 种 突 发 流量 分 配 一 个 专用 电路 是 非常 低 效 的 

一 种 更 加 宽松 和 高 效 的 资源 共享 实践 是 让 所 有 的 流量 竞争 通行 权 。 然而， 这 样 就 不 可 避免 由 于 突 
发 数据 流量 造成 拥塞 。 那 么 ， 我 们 如 何 处 理 这 种 流量 拥塞 ”可 以 通过 排队 来 解决 ! 在 节点 设置 缓冲 区 
空间 ， 就 能 够 化 解 由 于 临时 数据 突 发 所 造成 的 拥塞 ,但 如 果 拥 塞 持续 了 很 民 一 段 时 间 ， 最 终 会 由 于 绥 
冲 区 洪 出 而 产生 丢 茎 .这 种 存储 转发 的 资源 共享 称 为 分 组 交换 或 数据 报 交 换 ， 将 数据 流量 中 的 消息 分 
成 了 分 组 或 数据 报 ， 存 储 在 路 径 上 的 每 一 个 中 间 节 点 的 缓冲 区 队列 中 ， 并 沿 着 路 往 向 日 的 地 转发 

POTS 运用 电路 交换 ， 市 互联 网 和 ATM 运用 分 组 交换 。 正 如 1.1.1 节 中 所 述 ，ATM 的 路 径 是 “ 交 
换 式 ”的 ， 击 互联 网 的 路 径 是 “路 由 式 ” 的 。 因 此 可 能 使 读者 感到 办 惑 ， 互 联网 在 分 组 “交换 式 ” 网 
络 中 有 具有 “路 由 式 ” 路 径 。 不 境 的 是 ， 这 个 社区 不 是 按照 名 字 来 区 分 这 些 网 络 技术 的 ， 为 了 精确 起 
见 ， 互 联网 使 用 分 组 路 由 ,而 ATM 和 POTS 分 别 使 用 分 组 交换 和 电路 交换 。 从 某 种 意义 上 说 ，ATM 模 
仿 带 有 连接 建立 的 电路 交换 以 便 获 得 更 好 的 通信 质量 - 

打包 

为 了 发 送 消息 ， 就 必须 给 消息 附加 一 些 头 部 信息 以 便 形成 一 一 个 分 组 ， 以 便 让 网 络 知道 如 何 处 理 它 
消息 本 身 称 为 分 组 的 有 效 载 荷 。 头 部 信息 通常 包 念 源 地 址 和 目的 地 址 以 及 用 以 控制 分 组 发 送 处 理 的 许 
多 字段 。 但 是 分 组 和 有 效 载 集 可 以 有 多 大 ?这 取决 于 底层 所 使 用 的 链 路 技术 。 我 们 将 在 2.4 节 中 学 习 
人 到， 每 条 链接 对 分 组 长 度 郁 有 限制 ， 这 就 可 能 导致 发 送 节 点 将 消息 分 成 更 小 的 分 段 ， 并 在 每 一 分 段 上 
附加 头 部 以 便 能 够 通过 如 图 1-2 所 示 。 分 组 头 部 告诉 中 间 节 点 如 何 发 送 以 及 目的 节点 如 何 
重组 分 组 。 利用 头 部 ， 每 个 分 组 在 穿越 网 络 时 既 可 以 完全 独立 地 处 理 也 可 以 半 独 立地 处 理 .。 

















图 12 打包 : 将 消息 分 段 为 添加 了 头 部 的 分 组 

协议 定义 并 标准 化 头 部 字段 .根据 定义 ， 协 议 是 一 组 用 于 经 过 通信 信道 发 送信 息 所 需要 的 数据 表 
示 、 信 令 、 错 误 检测 的 标准 规则 。 这 些 标 准 规则 定义 了 协议 消息 的 头 部 字段 以 及 接收 端 对 接收 到 的 协 
以 消息 应 该 做 出 如 何 反 应 。 正 如 我 们 将 在 1.3 节 中 学 习 到 的 ， 一 条 消息 分 段 可 能 用 多 层 头 部 封装 ， 每 
层 头 部 描述 一 组 协议 参数 ， 并 添加 到 上 层 头 部 之 前 。 

排队 

正如 前 面 所 述 ， 网 络 节 点 分 配 缓冲 区 队列 以 便 吸 收 由 于 突 发 数据 流量 所 造成 的 拥 蹇 。 因 此 ， 当 分 
组 到 达 一 个 节点 时 ， 它 就 如 入 刘 带 有 其 他 已 经 到 达 分 组 的 缓冲 区 队列 中 ， 等 待 被 节点 中 的 处 理 器 处 理 
一 且 分 组 移动 到 队列 的 前 面 ， 它 就 会 被 处 理 器 处 理 ， 有 具体 根据 头 部 字段 决定 如 何 处 理 分 组 。 如 果 节 点 
处 理 器 决定 将 分 组 转发 给 另 一 个 数据 传输 端口 ， 那 么 分 组 就 会 加 入 到 另 一 个 缓冲 区 队列 中 等 5 待 锐 映 中 
的 发 送 机 发 送 ， 当 分 组 在 一 条 链 路 上 传输 时 ， 它 需要 一 些 时 间 从 链 路 的 一 端 传输 到 另 一 端 ， 这 有 既 可 以 
用 点 对 点 也 可 以 用 广播 方式 进行 。 如 果 分 组 要 通过 具有 10 个 节点 的 路 径 〈 即 具有 10 条 链 路 ) ， 那 么 | 
述 过 程 将 重复 10 次 

图 1-3 说 明了 在 一 个 节点 和 该 节点 的 输出 链 路 上 的 排队 过 程 ， 可 将 它们 建 模 为 带 有 一 个 队列 和 
一 台 服 务 器 的 排队 系统 。 在 节点 中 的 服务 器 通常 就 是 一 个 处 理 器 或 一 组 ASIC， 其 服务 时 间 取 决 于 节 
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点 模块 (例如 ，CPU、 内 存 、ASIC) 的 时 钟 速率 。 另 一 方面 ， 一 条 链 路 上 上 的 服务 时 间 实 际 上 要 取决 
于 : 1) 传输 时 间 ， 这 取决 于 收发 机 (发 射 机 和 接收 机 ) 能 够 多 快 地 发 送 和 接收 数据 以 及 分 组 有 多 
大 ; 2) 传播 时 间 ， 这 取决 于 发 送信 号 需要 传播 多 长 时 间 。 节点 工 的 前 一 阶段 仅 有 一 台 服 务 岩 来 处 理 
分 组 ， 这 个 阶段 分 组 发 送 所 需要 的 时 间 可 通过 使 用 更 快 的 收发 器 来 减少 。 然 而 ， 在 链 路 的 后 一 阶段 
有 具有 很 多 并 行 服务 器 (等 于 链 路 上 允许 的 超常 未 完成 分 组 的 最 大 数 ) ， 无 论 采 用 什么 技术 该 阶段 所 消 
甄 的 时 间 都 不 能 减少 。 信 号 以 大 约 2 x 10 mys 的 速度 在 链 路 上 传播 。 总 之 ， 节 点 的 处 理 时 间 和 传输 
有 时间， 包括 它们 的 排队 时 间 ， 会 随 着 新 技术 的 出 现 可 以 进一步 减少 ,但 是 传播 时 间 将 保持 不 变 ， 因 
为 它 的 值 将 受 光 速 的 限制 
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图 13 在 节点 和 链 路 上 的 排队 


行动 原则 : 数据 通信 与 电信 

这 里 还 要 再 次 强调 一 下 数据 通信 (datacom) ， 也 就 是 数据 通信 或 计算 机 网 络 ， 与 电信 (telecom) 
之 间 的 区 别 ， 以 便 结 束 对 计算 机 网 络 需求 的 讨论 。 对 于 连通 性 、 可 扩展 性 和 资源 共享 ， 上 述 两 者 之 间 
在 扩展 性 方面 没有 太 大 区 别 ， 主 要 区 别 在 于 它们 使 用 的 连接 类 型 以 及 它们 进行 资源 共享 的 方式 。 传 统 
的 电信 在 通信 双方 之 间 仅 建立 一 种 类 型 的 连接 ， 支 持 单一 的 应 用 程序 (电话 )。 另 一 方面 ， 数 据 通信 
上 则 有 着 广泛 的 应 用 ， 要 求 不 同类 型 的 连接 ,连通 性 可 以 设置 在 两 个 客户 端 之 间 (如 电话 )、 客 户 端 
和 服务 器 进程 之 间 (如 文件 下 载 或 流 媒体 ) 、 两 个 服务 器 进程 之 间 (如 邮件 中 继 或 内 容 更 新 )， 其 至 也 
可 以 在 一 组 个 人 或 进程 之 间 。 每 种 应 用 可 能 有 一 个 独特 的 流量 特征 ， 既 可 以 是 突 发 性 的 也 可 以 是 连续 
性 的 ， 与 均匀 的 、 通 常 连续 的 、 具 有 很 高 使 用 效率 的 电路 交换 技术 的 电信 流量 不 同 ， 数 据 通信 流量 要 
求 分 组 交换 ， 资源 共享 。 然 而 ， 与 无 缓冲 区 的 电路 交换 相 比 (其 中 唯一 主要 关注 的 是 呼叫 阻塞 或 掉 话 
概率 ) ， 分 组 交换 技术 引入 了 更 加 复杂 的 性 能 问题 。 正 如 我 们 将 在 1.2 节 中 所 讨论 的 ， 数 据 通信 需要 控 
制 缓冲 区 溢出 或 丢失 、 乔 吐 量 、 延 迟 和 延迟 变化 。 


1.2 基本 原理 

作为 数据 通信 的 基本 技术 ,分 组 交换 给 出 了 数据 通信 应 遵循 的 原理 。 我 们 可 以 将 这 些 原理 分 成 三 
类 : 性 能 ， 控 制 着 分 组 交换 的 服务 质量 ; 操作 ， 详 细 描 述 分 组 处 理 需要 的 机 制 类 型 ， 互 操作 性 ， 定 义 
需要 将 哪些 内 容 制定 成 标准 协议 和 算法 ， 哪 些 内 容 不 行 。 


1.2.1 性 能 测量 

在 本 节 中 ， 我 们 介绍 基本 的 背景 知识 ， 以 便 使 读者 可 以 理解 分 组 交换 的 规则 。 当 分 析 整 个 系统 的 
行为 或 茉 个 特定 的 协议 实体 时 ， 音 景 知 识 非 常 重要 。 不 预先 知道 或 事后 才 知 道 系统 或 协议 在 一 般 或 极 
端的 运行 场景 下 的 性 能 测量 就 去 设计 、 实 现 是 不 可 取 的 。 系 统 性 能 测量 结果 既 可 以 来 自 实际 系统 实现 
之 前 的 数学 分 析 或 系统 模拟 仿真 ， 也 可 以 在 系统 实现 之 后 来 自 实 验 台 的 实验 。 

用 户 考虑 一 个 系统 如 何 实现 时 要 取决 于 三 件 事 : 1) 系统 的 硬件 容量 ; 2) 对 该 系统 的 提供 负载 或 
输入 流量 ; 3) 内 加 到 系统 中 处 理 提供 负载 的 内 部 机 制 或 算法 。 具 有 高 容量 但 机 制 设 计 不 当 的 系统 在 处 
理 重 提供 负载 时 不 能 很 好 地 扩展 ， 即 使 它 能 很 好 地 处 理 轻 提供 负载 。 但是， 具有 良好 设计 的 小 容量 系 
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统 ， 不 应 放 兽 在 具有 重 流量 的 位 置 . 硬件 容量 通常 称 为 带宽 ， 它 是 网 络 领 域 中 的 一 个 常用 本 诸 ， 无 论 
是 节点 、 链 路 、 路 径 ， 甚 至 是 作为 一 个 整体 的 网 络 都 会 用 到 .一 个 系统 的 提供 负载 是 可 变 的 ， 可 以 是 
轻 负载 、 正 常 运行 负 载 、 极 重负 荷 〈 即 线 速 压力 负载 )。 如 果 系 统 将 维持 稳定 的 操作 ， 同 时 允许 设计 
的 内 部 机 制 起 作用 以 获得 更 高 的 性 能 ， 那 么 带宽 和 提供 负载 之 问 就 应 该 很 好 匹配 ， 对 于 分 组 交换 ， 香 
吐 量 (输出 流量 与 输入 流量 的 提供 负载 相 比 较 ) 似乎 就 是 我 们 最 关心 的 性 能 测量 ， 虽 然 其 他 测量 ， 如 
延迟 、 延 迟 变化 〈 通 常 称 为 抖动 ) 丢失 也 很 重要 

带宽 、 提供 负载 和 吞吐 量 

术语 “ 带 贫 ”来 月 电磁 牺 射 的 研究 ， 最 初 是 指 用 于 传 得 数据 的 频带 的 宽度 。 然 而 ， 在 计算 机 网 络 
中 该 术语 通常 用 来 描述 系统 在 基 一 时 间 内 可 以 处 理 的 最 大 数据 量 ， 系 统 可 能 是 节点 、 链 路 、 路 径 或 网 
络 。 例 如 ， 一 个 ASIC 能 够 以 100Mpps 加 密 ， 收 发 右 能 够 以 10Mbps 传输 ， 一 条 由 5 个 100Mbps 节点 和 
5 条 10Mbps 链 路 组 成 的 端 到 端 路 径 能 够 以 高 达 10Mbps 的 速度 人 处理 ,假设 沿 着 这 条 路 径 没 有 其 他 流量 
F 扰 

人 们 可 能 会 将 链 路 的 带宽 想象 成 1 秒 内 信号 传播 的 距离 中 所 传送 或 包含 的 位 数 ， 由 于 介质 中 的 光 
速 固 定 为 大 约 2x10 mxs， 所 以 更 高 的 带宽 意味 着 在 2 x10'm 内 包含 更 多 的 位 。 对 于 一 条 9600km 长 的 
洲际 链 路 传播 延迟 为 9600km/ (2 x 10 m) =48ms) ， 带 觉 为 10Gbps， 在 链 路 中 包含 的 最 大 位 数 为 
9600km/y (2x10 m) xl10Cbps =480Mb， 同样 ， 在 一 条 链 路 上 传播 的 发 送 位 的 “宽度 ”会 根据 链 路 带 
宽 而 改变 。 如 图 1-4 所 示 ， 在 10Mbps 链 路 上 的 位 度 在 时 间 上 上 为 1 (10 x10") =0.1ns， 或 在 长 度 上 上 
为 0.1ps x2x10"m/s=20m。 这 种 情况 下 ， 一 位 的 信和 号 波 实际 在 链 路 上 上 占用 20m。， 


在 时 间 下 为 01us， 在 长 度 上 为 20m 





图 1-4 10Mbps 链 路 在 时 间 和 长 度 的 位 宽度 ， 这 里 发 送 数 据 采 用 广泛 使 用 的 曼彻斯特 编码 

提供 负载 或 输入 流量 可 以 针对 带宽 进行 归 一 化 并 用 来 指示 系统 利用 率 或 者 有 多 忙 ， 对 于 一 条 
10Mbps 链 路 ，5Mbps 的 提供 负载 意味 着 归 一 化 负载 为 0.5， 这 说 明 链 路 平均 50% 忙 。 归 一 化 负荷 可 能 
超过 1， 尽管 这 将 使 系统 处 于 不 稳定 的 状态 。 在 吐 量 或 输出 流量 可 等 于 也 可 不 等 于 提供 负载 ， 如 图 1-5 
所 示 ， 在 理想 情况 下 ， 在 达到 提供 负载 带宽 ( 见 曲 线 A) 之 前 它们 应 该 是 相同 的 ( 见 曲 线 A)。 此 外 ， 
存 吐 量 收敛 于 带宽 。 但 在 实际 中 ， 即 使 在 提供 负载 (在 广播 链 路 ) 达到 带宽 之 前 ， 由 于 缓冲 区 溢出 
(在 节点 或 链 路 ) 或 冲突 ， 存 吐 量 也 可 能 低 于 提供 负载 〈 见 曲线 B). 在 有 具有 冲突 失控 的 链 路 上 ， 随 着 
提供 负载 不 断 增 加 ,吞吐 量 可 能 会 下 降 到 零 ， 如 图 1-5 中 曲线 C 所 示 。 通过 精心 设计 ， 我们 可 以 防止 
这 种 情况 发 生 ， 使 在 吐 量 收 敛 于 一 个 低 于 带宽 的 值 








在 吐 量 
pe A 一 A- 理想 的 
站 四 一 OD B: 实 际 的 
We Cj: 冲 突 








提供 人 负载 
图 15 带宽 、 提 供 负载 和 符 叶 最 
延迟 ; 节点 、 链 路 、 路 径 
除了 春 吐 量 外 ,延迟 是 另 一 个 我 们 所 关心 的 重要 测量 。 最 早 由 Agner Krarap Erang 于 1909 年 和 
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1917 年 提出 的 排队 理论 能 够 告诉 我 们 ， 如 果 分 组 到 达 间 隔 时 间 和 分 组 服务 时 间 都 服从 指数 分 布 并 且 前 
者 大 于 后 者 ， 再 加 上 无 限 的 缓冲 区 大 小 ,那么 平均 延迟 则 与 带宽 和 提供 负载 之 差 呈 反比 ， 即 
T= 1/(p =A) 

其 中 六 是 带宽 ,和 为 提供 负载 ,了 是 平均 延迟 。 哩 然 在 实际 中 指数 分 布 并 不 能 反映 实际 的 网 络 流量 ， 
但 这 个 方程 为 我 们 提供 了 一 种 带 沉 和 提供 负载 、 延 迟 之 间 的 基本 关系 。 从 方程 中 可 以 看 出 ， 如 果 和 带宽 
和 提供 负载 加 倍 ， 延 信 将 减 半 ， 这 意味 着 更 大 的 系统 通常 有 更 低 的 延 述 。 换 句 话 说 ， 从 延 述 的 观点 来 
看 资源 不 应 该 分 割 成 小 块 。 此 外 ， 如 果 系 统 分 割 成 相同 的 两 个 小 系统 来 处 理 均 分 的 负载 ， 邢 么 更 小 系 
统 的 延迟 将 会 增加 一 倍 


行动 原则 : Little 结论 

对 于 一 个 节点 来 讲 ， 一 个 有 趣 的 问题 是 如 果 我 们 能 够 测量 其 提供 负载 和 延迟 ， 那 么 在 一 个 节点 
中 到 底 能 够 包含 多 少 个 分 组 ?由 John Little 在 1961 年 开发 的 定理 对 此 做 出 了 回答 : 如 果 知 吐 量 等 于 
提供 负载 ， 即 无 分 组 丢失 ， 那 么 平均 占用 率 (节点 中 的 平均 分 组 数 ) 等 于 平均 吞吐 量 乘 以 平均 延迟 。 
也 就 是 说 ， 

N=AxT 

其 中 入 是 平均 提供 负载 ,7 是 平均 延迟 ，N 是 平均 占用 率 。Little 的 结论 非常 的 强大 ， 因 为 它 不 需 对 这 
些 变 量 的 分 布 做 出 假定 。 这 一 结论 的 一 个 很 有 用 的 应 用 是 用 来 估计 黑匣子 节点 中 的 缓冲 区 大 小 。 假 设 
我 们 可 以 测量 节点 的 最 大 无 丢失 的 吞吐 量 和 在 这 样 的 吞吐 量 下 的 延迟 。 通 过 它们 的 乘积 得 到 的 占用 率 
近似 等 于 节点 内 所 需要 的 最 小 缓冲 区 大 小 ， 在 图 1-6 中 ， 显示 了 没有 丢失 发 生 时 对 占用 率 的 估计 


平均 占用 率 =5 分 组 


Oe 


平均 延迟 =5s 
图 1-6 Little 的 结论 : 在 盒子 中 有 多 少 个 分 组 
一 个 数据 包 的 延迟 (lateney) 实际 上 是 排队 时 间 (gueuing) 和 服务 时 间 的 总 和 。 后 者 对 提供 负载 
伯 对 不 敏感 ， 但 前 者 对 提供 负载 非常 敏感 。 一 个 节点 的 服务 时 间 通 常 是 处 理 数据 包 所 人 花费 的 CPU 时 间 
(processing)。 男 一 方面 ， 在 一 条 链 路 上 的 服务 时 间 由 传输 时 间 ( transmission) 和 传播 时 间 ( propaga- 
tion) 组 成 。 也 就 是 说 ， 在 一 个 厄 点 上 ， 


lateney = queuing + processing 





但 在 一 条 链 路 上 ， 
latency = queuing + transmission + propagation 

与 将 Little 结论 用 于 节点 上 相似 ， 链 路 的 带宽 延迟 乘积 (BDP) 能 够 说 明 在 管道 中 有 多 少 位 正在 传 
输 。 图 1-7 中 对 比 了 包含 在 长 布 粗 的 管道 〈 链 接 ) 中 的 二 进 制 位 数 与 包含 在 短 而 细 的 管道 中 的 位 数 
这 里 用 志 表 示 的 延 次 就 是 传播 时 间 ， 而 不 是 传送 或 排队 时 间 ， 它 由 链 路 的 长 度 来 决定 。BDP 是 设计 流 
量 控制 机 制 中 的 一 个 重要 因素 。 有 具有 大 BDP 的 链 路 或 路 径 应 该 采用 预防 控制 机 制 而 不 是 反应 控制 机 
制 ， 因 为 后 者 会 对 拥塞 做 出 太 述 的 反应 。 

上 eg 


O11011010101001 忌 01110010 
001001110011110 10010100 
100110001011010 短 而 细 的 管道 
011000110100100 
长 而 粗 的 管道 
图 1-7 人 带宽 延迟 乘积 : 长 而 粗 的 管道 与 短 而 细 的 管道 








拌 动 或 延迟 变化 
在 数据 通信 中 的 某 些 应 用 中 (例如 ， 分 组 语音 ) ， 不 仅 需要 较 小 的 而 且 还 需要 一 致 的 延迟 。 其 他 
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一 些 应 用 〈 如 视频 和 音频 流 ) ， 可 能 会 容 刀 非常 高 的 延迟 ， 甚 至 在 某 种 程度 上 可 以 吸收 延迟 变化 或 圭 
动 。 因 为 流 媒 体 服务 器 向 客户 端 发 送 单 向 连续 的 流量 ， 人 们 感觉 到 的 播放 质量 就 已 经 足够 ， 只 要 在 客 
户 端 的 播放 缓冲 区 不 为 空 或 溢出 就 行 。 这 种 客户 端 使 用 一 种 播放 缓冲 区 ， 通 过 将 所 有 分 组 的 播放 时 间 
延迟 到 某 一 对 齐 的 时 间 线 上 来 吸收 抖动 。 例 如 ， 如 果 抖 动 是 28， 那 么 客户 端 会 月 动 地 将 所 有 数据 分 组 
的 播 出 时 间 延 迟 为 播 出 时 间 惟 增加 2s。 因 此 ， 就 必须 有 一 个 能 够 将 分 组 排队 2s 的 缓冲 区 。 尽 管 增 大 了 
延迟 ， 但 抖动 也 被 吸收 或 减少 了 ， 对 于 分 组 请 音 ， 就 根本 不 能 采用 这 种 抖动 消除 法 ， 因 为 需要 在 两 个 
节点 之 间 进 行 互动 。 在 这 种 情况 下 ， 就 不 能 策 牲 太 多 延迟 来 消除 拌 动 。 然 而 ， 对 于 非 连 续 性 流量 ， 拌 
动 就 不 再 是 一 个 重要 的 测量 指标 

丢失 

最 后 但 并 非 是 最 不 重要 的 性 能 测量 是 分 组 丢失 概率 。 有 两 个 主要 虚 央 导致 分 组 丢失 : 拥塞 和 错误。 
数据 通信 系统 容易 出 现 拥 塞 。 当 在 链 路 或 节点 上 上 发生 拥 塞 时 ， 分 组 就 会 在 缓冲 区 中 排队 ， 以 便 吸 收 拥 
塞 。 但是， 如 果 拥 寨 持续 存在 ， 那 么 缓冲 区 就 开始 游 出 ， 假 设 某 个 节点 有 三 条 相同 带宽 的 链 路 。， 当 同 
上 时 有 从 链 路 1 和 链 路 2 进入 的 线 速 流量 发 向 链 路 3 时 ， 节 点 将 至 少 有 50% 的 分 组 丢失 。 对 于 这 种 速度 
不 匹配 ， 缓 冲 区 就 起 不 到 作用 ， 就 必须 使 用 其 种 控制 机 制 来 替代 。 缓 冲 仅 用 于 短期 拥塞 的 解决 。 

在 链 路 或 节点 上 发 生 的 错误 ， 也 会 导致 分 组 丢失 ,尽管 目前 许多 有 线 链 路 传输 具有 好 的 传输 质量 、 
正常 低 的 误 码 率 ， 但 是 由 于 干扰 和 信号 衰减 ， 大 多 数 无 线 链 路 仍然 具有 高 的 误 码 率 ， 一 位 错误 或 多 位 
错误 会 使 整个 分 组 没有 用 途 而 被 丢弃。 传输 并 非 是 错误 的 唯一 来 源 ， 任 意 节 点 上 的 内 存 错 误 也 占 了 相 
当 大 的 比例 ， 尤 其 是 当 内 存 模块 使 用 了 很 多 年 后 更 是 如 此 ， 当 数据 分 组 在 节点 缓冲 区 中 排队 时 ,缓冲 
区 内 存 就 可 能 发 生 位 错误 ， 导 致 读 取 的 罕 节 与 写 信 的 字 节 不 一 致 


1.2.2 控制 平面 上 的 操作 


控制 平面 与 数据 平面 

分 组 交换 网 络 的 操作 涉及 两 种 分 组 的 处 理 : 控制 和 数据 。 控 制 分 组 携 市 的 消息 用 来 指导 节点 如 何 
转发 数据 ， 而 数据 分 组 则 包括 用 户 或 应 用 程序 实际 上 要 转发 的 消息 。 一 组 用 于 处 理 控制 分 组 的 操作 称 
为 控制 平面 ， 而 一 组 用 于 处 理 数据 分 组 的 操作 称 为 数据 平面 。 尽 管 还 有 一 些 用 于 管理 目的 的 其 他 操作 ， 
因此 市 称 为 管理 平面 ， 但 为 了 简单 这 里 将 它们 合并 到 控制 平面 中 。 控 制 平面 和 数据 平面 之 间 的 主要 区 
别 在 于 前 者 通常 发 生 在 具有 更 长 的 时 间 尺 度 〈 如 几 百 毫秒 (ms) 至 儿 十 秒 (s)) 的 背景 下 ， 而 后 者 则 
发 生 在 前 台 具 有 较 短 的 时 间 尺 度 ( 如 介 于 微 秒 (ps) 至 纳 秒 (ns)) 并 且 更 加 实时 。 探 制 平面 的 每 
个 操作 往往 需要 更 复杂 的 计算 ,以 便 决策 如 何 路 由 流量 以 及 如 何 分 配 资源 ， 以 便 优 化 资源 共享 和 使 
用 。 男 一 方面 ， 数 据 平 面 需要 在 运行 过 程 中 处 理 和 转发 数据 分 组 ， 以 便 优 化 存 吐 量 、 延 不、 丢失 。 
本 节 说 明 控制 平面 需要 什么 样 的 机 制 ，1.2.2 节 介 绍 数据 平面 所 需要 的 机 制 。 这 里 也 给 出 了 它们 的 
设计 考虑 。 

守 制 平面 在 数据 通信 中 的 任务 是 为 数据 平面 提供 良好 的 指令 以 便 承 载 数据 分 组 。 如 网 1-8 中 所 示 ， 
为 了 实现 这 一 任务 ， 中 间 设 备 的 控制 平面 就 需要 计算 向 哪里 路 由 分 组 (到 哪 条 链 路 或 端口 )， 通 常 需 
要 控制 分 组 的 交换 和 复杂 路 由 的 计算 。 此 外 ， 控 制 平 而 可 能 还 需要 人 处理 其 他 问题 ， 如 错误 报告 、 系 统 
配置 和 管理 以 及 资源 的 分 配 。 无 论 这 一 任务 能 否 完成 好 ， 一般 都 不 直接 影响 性 能 测量 ， 这 一 点 与 数据 
平面 不 同 。 相反， 控制 平面 更 多 关注 资源 是 否 已 经 有 效 、 公 平 、 优 化 地 使 用 。 接 下 来 让 我 们 学 习 到 底 
能 够 在 控制 平面 中 放 入 什么 样 的 机 制 。 


控制 平面 上 的 操作 路 由 | 错误 报告 | 系统 配制 和 管理 | 资源 分 配 









































图 1-8 中 间 节 点 上 控制 平面 和 数据 平面 上 的 某 些 操作 
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路 由 
大 多 数 文献 中 不 区 分 路 由 与 转发 。 这 里 ， 我 们 将 路 由 定义 为 找到 向 何 处 发 送 分 组 ， 而 将 转发 定义 
为 发 送 分 组 。 因 此 路 由 是 计算 路 线 并 将 它们 存储 在 转发 分 组 时 需要 查找 的 表 中 ,路 由 通常 是 在 后 台 周 
期 性 地 完成 的 ， 以 便于 维护 和 更 新 转发 表 。( 请 注意 ,在 许多 文献 中 将 转发 表 称 为 路 由 表 。， 在 本 书 中 我 
们 交替 使 用 两 个 术语 来 表示 同样 的 含义 .) 当 分 组 到 达 时 再 计算 路 由 就 来 不 及 了 ， 震 要 将 分 组 立即 转 
发 。 只 给 查 表 的 时 间 ， 但 却 没 有 给 出 运行 路 由 计算 算法 的 时 间 。 
作为 路 径 计算 的 路 由 并 不 像 人 们 乍 看 起 来 所 认为 的 那么 简单 。 在 人 们 开始 设计 一 种 路 由 选择 算法 
之 前 有 很 多 问题 需要 回答 
路 由 应 当 在 每 台中 间 路 由 器 逐 跳 地 决定 还 是 在 源 主机 上 计算 (也 就 是 源 路 由 )? 
路 由 选择 决策 的 粒度 是 : 按 目的 地 ， 按 源 目 的 地 、 按 流量 ， 还 是 更 极端 地 按 分 组 进行 呢 ? 
在 给 定 的 粒度 下 ， 我 们 是 选择 单 路 径 的 路 由 ， 还 是 多 路 径路 由 呢 ? 
路 由 计算 是 根据 全 局 的 还 是 局 部 的 网 络 信息 呢 ? 
如 何 分 发 全 局 或 局 部 信息 ? 在 所 有 路 由 器 之 间 广 播 还 是 仅 在 相 邻 路 由 器 间 交 换 ? 
按照 定义 何谓 最 佳 路 径 ? 它 是 最 短 的 、 最 宽 的 ， 还 是 最 健 闪 的 路 径 ? 
路 由 器 应 当 仅 支持 一 对 一 转发 还 是 一 对 多 转发 ， 也 就 是 说 ， 单 播 还 是 组 播 ? 
所 有 这 些 问 题 都 必须 首先 考虑 清楚 。 我 们 强调 由 互联 网 所 做 的 设计 选择 ,但 是 对 于 其 他 
网 络 体系 结构 可 能 有 一 套 不 同 的 选择 。 我 们 不 打算 专门 在 此 详 述 这 些 选择 到 底 是 如 何在 互联 
网 上 工作 的 。 在 此 我 们 仅 列 举 出 路 由 协议 和 算法 的 设计 问题 ， 而 将 详细 细节 留 旬 第 4 章 中 
介绍 
流量 和 带宽 分 配 
可 以 从 一 个 更 加 面向 性 能 的 角度 来 考虑 路 由 。 如果 流量 和 带宽 资源 可 以 被 测量 和 操纵 ， 我 们 就 能 
人 够 分 配 一 定 的 流量 容量 ， 并 将 它 分 配给 带 有 一 定 带宽 的 路 径 上， 分 配 流量 还 有 另外 一 个 类 似 于 路 由 的 
标签 ， 即 所 谓 的 流量 工程 。 带 宽 分 配 和 流量 工程 两 者 通常 都 带 有 特定 的 优化 目标 ,例如 最 小 化 端 到 端 
平均 延迟 和 最 佳 的 负载 平衡 ， 假 定 一 组 令 人 满意 的 系统 限制 。 因 为 这 种 优化 问题 需要 不 能 实时 完成 的 
甘 常 复杂 的 计算 ， 还 因为 仅 有 少数 系统 才能 够 在 运行 时 调整 带宽 分 配 ， 所 以 流量 和 带宽 分 配 通 常 在 管 
理 平面 或 者 在 网 络 规划 阶段 离线 地 完成 。 


1.2.3 数据 平面 上 的 操作 

与 在 控制 平面 上 可 能 仅 适 用 于 几 百 毫秒 到 几 十 秒 时 间 内 控制 分 组 的 操作 不 同 ， 数 据 平面 上 的 操作 
适用 于 所 有 的 分 组 ， 并 限制 在 数 微 秒 或 更 短 的 时 间 内 进行 处 理 。 数 据 平面 的 主要 工作 似乎 就 是 转发 分 
组 ， 因 为 到 达 某 个 端口 或 链 路 上 上 的 分 组 能 够 转发 到 另 一 个 端口 。 事 实 上 上 ， 转 发 可 能 仅 是 数据 平面 提供 
的 服务 之 一 。 其 他 的 服务 还 包括 分 组 过 滤 、 加 密 或 甚至 内 容 过 滤 。 所 有 这 些 服务 需要 通过 检查 分 组 的 
多 个 字段 而 对 分 组 进行 分 类 ， 检 查 主 要 集中 在 头 部 ， 但 可 能 还 包括 有 效 载荷 ， 与 控制 平面 维护 的 规则 
或 由 管理 员 预 先 设 定 的 规则 进行 对 比 。 一 且 匹 配 ， 匹 配 的 规则 规定 分 组 应 该 得 到 什么 样 的 服务 ， 以 及 
如 何 运 用 这 些 服务 。 

转发 本 身 并 不 能 保证 网 络 的 健康 运行 。 除 了 转发 和 其 他 已 经 提 到 的 增值 服务 外 ， 差 错 控制 和 流量 
控制 是 数据 平面 上 的 另外 两 个 基本 按 分 组 的 操作 。 前 者 确保 分 组 完好 无 位 错误 地 传输 ， 而 后 者 则 是 为 
避免 拥 寨 并 保持 良好 的 在 吐 量 性 能 。 如 果 没 有 这 两 个 基本 操作 ,单独 的 转发 会 使 网 络 很 容易 产生 拥 
塞 和 错误 的 混乱 。 下 面 我 们 仔细 学 习 图 1-8 中 列 出 的 这 些 操 作 

转发 

分 组 转发 需要 检查 分 组 中 的 一 个 或 多 个 头 部 字段 ， 具 体 取决 于 如 何 确定 在 控制 平面 上 的 路 由 。 可 
能 仅 取 出 目的 地 地 址 字段 后 就 查找 转发 表 ， 也 可 能 需要 取出 更 多 的 字段 后 再 查找 。 路 由 决策 直接 决定 
如 何 完成 转发 ， 包 括 需要 检查 哪个 头 部 字段 ， 在 转发 表 中 匹配 哪些 条 目 等 。 由 此 看 来 ， 似 乎 如 何 进行 
游戏 (转发 ) 已 经 由 在 别处 的 另 一 个 游戏 (路由) 所 决定 了 , 但 其 实 这 里 的 玩家 (参与 者 ) 仍 有 很 大 
的 自由 空间 ， 对 于 分 组 转发 ， 可 能 最 重要 的 问题 就 是 需要 以 多 快 的 速度 来 转发 分 组 ， 假设 某 个 路 由 器 
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季 点 有 4 条 链 路 ， 每 条 容量 为 10Cbps， 而 且 分 组 很 短 ， 固定 为 64 字 节 - 在 路 由 器 上 每 秒 聚 集 的 最 大 分 
组 量 将 达到 4x100CZ(64 x8) =78 125 000， 这 意味 着 如 果 需 要 以 线 速 转发 ， 路 由 肯 将 需要 每 秒 转发 
78 125 000 个 分 组 (几乎 每 12. 8ns 就 转发 一 个 分 组 ) 。 这 无 疑 对 转发 机 制 的 设计 构成 了 挑战 。 

如 何 实现 转发 表 的 数据 结构 ， 以 及 在 这 个 数据 结构 上 如 何 实 现 查找 和 更 新 算法 就 搜 在 设计 者 面前 。 
这 些 设计 决定 了 节点 是 否 能 够 以 线 速 转发 。 在 某 些 情况 下 ， 可 能 需要 使 用 特定 的 ASIC 以 便 从 CPU 上 
仓 载 转发 任务 ， 从 而 能 够 达到 每 秒 数 百 万 分 组 的 转发 速度 。 尽 管 速 度 最 关键 ， 但 也 与 大 小 有 关 。 存储 
转发 表 的 数据 结构 可 能 会 受到 限制 。 对 于 每 个 表 项 大 小 为 2~3 字 节 的 80 000 个 转发 表 项 ， 可 以 试 着 将 
它们 存储 到 不 超过 数 百 KB 的 树 或 散 列 表 中 ， 也 可 以 存储 到 数 百 MB 的 平面 索引 表 中 。 在 转发 表 的 实现 
中 ， 直 觉 上 需要 在 时 间 复 杂 度 和 空间 复杂 度 之 间 进 行 折 中 。 


分 类 
如 前 所 述 ， 许 多 服务 需要 对 分 组 进行 分 类 操作 ， 即 一 种 从 分 组 头 部 中 提取 一 个 或 多 个 字段 与 一 套 


规则 进行 匹配 。 规 则 由 两 部 分 组 成 : 条 件 和 行动 ， 指 定 在 字段 的 什么 条 件 下 应 该 对 匹配 的 数据 分 组 采 
取 何 种 行动 。 由 于 每 种 服务 都 有 其 自己 的 一 组 字段 与 其 自己 的 一 套 规 则 进行 匹配 ， 所 以 对 于 一 种 特定 
的 服务 就 需要 一 种 分 类 器 及 其 相关 规则 ， 或 一 种 分 类 数据 库 。 对 于 转发 服务 来 说 ， 转 发 表 就 是 它 的 分 
类 数据 库 

一 个 与 需要 多 快速 度 转发 分 组 的 问题 相 类 似 的 就 是 需要 多 快速 度 分 类 分 组 。 这 里 的 速度 取决 于 : 字 
段 的 数量 (一 个 至 数 个 ) 和 规则 的 数量 ( 从 数 个 到 几 万 个 )， 这 两 个 数值 都 直接 影响 分 类 器 在 吐 量 的 可 
扩展 性 。 因 此 ， 目 标 是 设计 一 种 多 字段 的 、 可 以 良好 扩展 的 、 有 一 定数 量 的 字段 和 规则 的 分 类 算法 。 如 
果 当 这 两 个 数量 较 小 时 就 具有 高 吞吐 量 ， 但 当 其 中 一 个 数字 比较 大 而 使 春 吐 量 下 降 很 多 时 ， 设 计 就 具有 
较 小 的 可 扩展 性 。 与 转发 相 类 似 ， 设 计 者 可 能 会 采用 ASIC 硬件 设计 以 取得 高 吞吐 量 的 分 组 分 类 

深度 分 组 检验 

转发 和 分 类 都 检查 分 组 头 部 字段 。 但 有 时 ， 恶 意 代码 常常 深 藏 在 分 组 的 有 效 载 荷 中 。 例 如 ， 和 侵 和 
病毒 分 别 会 深 藏 在 应 用 程序 的 头 部 和 有 效 载荷 中 ,有 关 这 些 内 容 的 知识 通常 抽象 成 一 种 签名 数据 库 ， 用 
来 匹配 进入 分 组 的 有 效 载 荷 。 这 种 匹配 的 过 程 称 为 深度 分 组 检验 (DPI) ， 因 为 它 深入 查看 有 效 载 荷 。 由 
于 签名 通常 是 用 简单 的 字符 串 或 正则 表达 式 来 表示 ， 所 以 字符 串 匹配 就 成 为 深度 分 组 检验 的 关键 操作 

而 且 ， 能够 多 快 地 执行 字符 串 匹 配 也 是 主要 的 考虑 。 与 1 维 的 转发 和 2 维 的 分 类 相 比 ， 这 是 一 种 
以 签名 数量 、 签 名 长 度 、 签 名 字符 串 的 字符 集 的 大 小 为 参数 的 3 维 问 题 。 在 这 个 大 问题 空间 中 设计 一 
种 向 二 、 向 下 很 好 扩展 的 算法 将 更 具有 挑战 性 。 毕 竞 ， 它 也 是 一 个 为 了 获得 高 吞吐 量 需要 ASIC 硬件 解 
决 方案 的 难 解 的 设计 问题 。 

差错 控制 

正如 1.2.1 节 中 的 讨论 ， 在 分 组 中 可 能 发 生 位 错误 。 在 分 组 传输 期 间或 分 组 存储 在 内 存 中 时 ， 就 
可 能 发 生 错误 。 需 要 回答 两 个 基本 问题 : 1) 检测 或 纠正 ? 2) 逐 跳 或 端 到 端 ? 第 一 个 问题 是 有 关 错 误 
分 组 的 接收 器 是 如 何 检测 和 处 理 错误 的 。 有 两 种 方法 : 接收 顷 可 以 通过 额外 的 元 余 位 检测 错误 ， 并 通 
知 发 送 者 重 发 ; 或 者 如 果 有 额外 的 完 余 位 能 够 指示 错误 的 准确 位 置 ， 就 可 以 直接 地 检测 并 纠正 错误 。 
后 一 种 方法 将 需要 更 多 的 元 余 位 ， 从 而 产生 更 高 的 额外 开销 。 是 否 进行 错误 纠正 取决 于 承载 的 流量 类 
型 。 对 于 实时 流量 ,通知 发 送 方 重 传 不 是 一 个 很 好 的 方法 。 如 果 应 用 程序 能 够 容 咏 很 小 比例 的 丢失 ， 
那么 就 可 以 直接 丢弃 错误 分 组 而 不 采取 进一步 的 行动 ; 否则 就 应 该 进行 纠 错 . 

和 二 个 问题 就 是 有 关 错 误 可 能 出 现 的 位 置 : 链 路 或 节点 ? 如 果 位 错误 仅 出 现在 链 路 上 ， 那 么 就 可 
以 在 每 条 链 路 的 接收 器 设置 差错 控制 进行 检测 或 者 也 可 以 纠 错 。 这 样 路 径 将 是 无 差错 的 ， 因 为 所 有 的 
链 路 都 可 以 恢复 错误 。 但是， 如 果 存 储 在 节点 中 的 分 组 出 现 内 存 错误 ， 那么 位 错误 就 会 继续 传输 而 不 
被 检测 到 ， 因 为 每 条 链 路 的 发 送 端 和 接收 端 只 能 发 现 链 路 上 的 传输 错误 。 换 名 话说 ， 级 联 逐 跳 (或 逐 
链 路 ) 的 差错 控制 是 不 够 的 ， 还 需要 端 到 端的 差错 控制 。 或许 有 人 会 问 : 为 什么 不 去 掉 逐 跳 差 错 探 制 
而 仅 保 留 端 到 端的 差错 控制 呢 ? 从 差错 控制 的 角度 来 看 ， 是 可 以 这 样 做 的 。 但 问题 在 于 恢复 错误 所 需 
要 的 时 间 : 去 掉 逐 跳 差错 控制 将 会 延长 差错 恢复 处 理 所 需 要 的 时 间 。 如 果 链 路 位 错误 率 太 高 ， 这 样 做 
其 至 还 会 增加 恢复 错误 的 难度 ， 因 为 端 到 端 错误 恢复 的 成 功 概率 是 沿 着 路 径 上 每 条 链 路 的 错误 恢复 成 
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功 概率 的 乘积 。 这 实际 上 就 是 将 在 1.3 节 中 详 述 的 端 到 端 参 数 。 


流量 控制 
在 数据 平面 上 的 另 一 个 按 分 组 操作 就 是 控制 分 组 流 的 输入 过 程 。 输送 分 组 过 快 可 能 会 让 中 间 路 由 


器 或 目标 节点 溢出 ， 导 致 加 出 拥塞 的 许多 分 组 的 重 传 。 输 送 分 组 太 慢 则 可 能 会 使 缓冲 区 下 洪 ， 导 致 较 
低 的 带宽 资源 利用 率 。 流量 控制 是 任何 为 了 避免 或 解决 拥塞 机 制 的 统称 ， 但 拥塞 本 号 可 能 会 相当 复杂 - 
它 可 能 是 端 到 端 (在 一 条 路 径 上 的 源 和 日 的 地 之 间 )、 逐 跳 ( 链 路 上 的 发 送 端 和 接收 端 之 间 )， 或 热点 


防止 速度 快 的 发 送 端 压 垮 较 慢 的 接收 端 。 发 送 端 和 接收 端 之 间 可 以 通过 一 条 链 路 或 一 条 路 往 连 接 起 来 ， 
因此 流量 控制 既 可 以 是 未 跳 的 也 可 以 是 端 到 端的 ， 

作为 另外 一 种 流量 控制 ,拥塞 控制 处 理由 一 组 流量 源 所 造成 的 、 更 复杂 的 钼 有 宽 拥 寨 。 一 个 瓶颈 ， 
无 论 是 节点 还 是 链 路 ， 能 让 许多 分 组 流量 通过 ， 每 一 个 分 组 流 都 会 对 拥塞 做 出 贡献 . 让 源 放 慢 甚至 停 
止 发 送 是 一 种 显而易见 的 解决 方案 . 不 过 ,还 有 些 细 节 有 待 解决 。 谁 应 该 放 慢 以 及 放 慢 多 少 呢 7? 处 理 
策略 是 什么 ”我 们 可 以 让 全 部 或 部 分 源 降 低 相 同 或 不 同 数 量 的 传输 速率 ， 但 这 应 该 由 基本 策略 来 决定 ， 
公平 似乎 是 一 个 良好 的 策略 ， 但 如 何 定 义 公 平 以 及 如 何以 一 种 有 效 的 方式 执行 公平 策略 ， 不 同 的 网 络 
体系 结构 会 做 出 不 同 的 设计 选择 

服务 质量 

利用 流量 控制 和 拥塞 控制 来 维持 称心 如 意 的 的 操作 ， 网 络 就 能 很 好 地 工作 。 但 是 存在 显 式 地 指定 
流量 参数 ， 如 速度 和 突 发 长 度 以 及 其 期 望 的 性 能 测量 (如 延 退 和 丢失 ) 等 更 加 严格 的 需求 ， 这 就 是 显 
式 的 服务 质量 (QoS) 。 几 十 年 来 ， 它 都 是 分 组 交换 的 一 种 巨大 挑战 ! 可 能 在 入口 点 或 网 络 的 核心 放置 
各 种 信息 控制 模块 (如 策略 器 、 整 形 器 、 调 度 器 )， 来 调节 流量 以 满足 Qo0S 的 目标 .虽然 已 经 提出 了 
多 种 解决 方案 架构 ， 但 它们 郁 还 没有 大 规模 地 部 署 到 运营 网 络 中 。 第 7 章 中 详 述 它们 的 发 展 。 然 而 ， 
许多 信息 控制 模块 已 经 嵌入 到 各 种 设备 中 作为 部 分 QoS 解决 方案 


1. 2. 4 互 操作 性 

标准 与 实现 相关 

让 各 种 设备 相互 通信 有 两 种 可 能 的 方式 。 一 种 就 是 只 从 同一 家 供应 商 购买 所 有 的 设备 ， 另 一 种 就 
是 在 设备 之 问 定义 标准 协议 ， 这 样 只 要 供应 商 遵 循 这 些 协议 ， 我 们 就 可 以 交互 操作 从 不 同 供应 商 购买 
的 设备 。 这 种 互 操作 性 是 必需 的 ， 尤 其 是 我 们 不 看 望 从 一 家 供应 商 那 里 购买 了 首 批 设备 后 就 被 绑 定 到 
这 家 特定 的 供应 商 。 另 一 方面 ， 主 室 市 场 的 厂商 可 能 想 把 一 些 专 有 协议 ， 即 厂商 自己 的 而 不 是 标准 化 
组 织 的 定义 放 入 到 他 们 的 设备 里 ， 以 此 来 约束 他 们 的 客户 ， 但 是 ， 如 果 他 们 这 样 做 得 不 够 递 慎 ， 那 么 
他 们 的 市 场 份额 因此 可 能 会 悄 无 声息 地 下 滑 ， 

那么 ， 哪 些 内 容 应 该 定义 成 标准 ， 哪 些 内 容 不 必 呢 ”由 互 操作 性 充当 标准 。 对 于 分 组 处 理 过 程 ， 
其 些 部 分 需要 标准 化 ， 而 其 余 的 部 分 可 能 要 留 给 厂商 来 决定 。 需 要 标准 化 的 部 分 就 是 影响 来 自 不 同 供 
应 商 设备 互 操作 性 的 部 分 。 协 议 消息 的 格式 ， 当 然 需要 标准 化 。 然 而 ， 许 多 不 影响 其 他 设备 互 操作 性 
的 内 部 机 制 〈 例 如 ， 表 的 数据 结构 及 其 查找 和 更 新 算法 ) ， 是 与 实现 相关 的 (特定 厂商 的 ) ， 通 常 就 是 
这 些 厂商 的 具体 设计 导 臻 最终 性 能 上 的 差异 。 本 节 指出 在 哪里 可 以 实现 标准 和 与 实现 相关 的 设计 


标准 协议 和 算法 
在 默认 情况 下 ， 协 议 应 该 标准 化 ， 尽 管 也 确实 存在 一 些 专 有 协议 。 这 种 专 有 协议 如 果 占 领 了 市 场 ， 
就 有 可 能 成 为 事实 上 的 标准 。 除 了 体系 结构 外 ， 在 定义 协议 规范 时 ， 还 需要 定义 两 个 接口 : 对 等 接口 


和 服务 接口 。 对 等 接口 格式 化 支持 该 协议 的 系统 之 间 交 换 的 协议 消息 ， 而 服务 接口 定义 同一 节点 机 器 
人 上 其 他 模块 的 吨 数 调用 以 便 访问 由 该 模块 所 提供 的 服务 。 一 个 协议 可 能 有 多 种 消息 类 型 ， 每 种 都 有 它 
月 己 的 头 部 格式 。 一 个 头 部 包含 多 个 固定 或 可 变 长 度 的 字段 。 当 然 ， 每 个 头 部 字段 的 句法 (格式 )、 
语义 (解释 ) 都 需要 标准 化 。 发 送 方 为 了 协议 握手 将 信息 编码 为 协议 消息 的 头 部 ， 如 果 有 数据 ， 就 将 
它 添加 为 该 协议 消息 的 有 效 载荷 

控制 协议 在 协议 消息 头 部 放置 用 于 控制 平面 操作 的 控制 数据 。 另 一 方面 ， 数 据 协 议 将 各 种 数据 ， 
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不 管 是 用 户 数据 还 是 控制 数据 都 放 兽 在 其 协议 消息 的 有 效 载荷 中 。 它 们 的 头 部 信息 仅 告 诉 设备 应 该 如 
何 转发 分 组 ， 

除了 协议 消息 的 句法 和 语义 外 ， 丰 控制 平面 和 数据 平面 上 的 某 些 算法 也 应 该 是 标准 化 的 。 例 如 ， 
如 果 要 想 让 所 有 参与 的 路 由 器 对 最 短路 径 达成 一 致 看 法 ,那么 所 有 参与 的 路 由 器 对 控制 平面 上 的 路 由 
算法 就 必须 达成 一 致 。 如 果 两 侣 相 邻 的 路 由 器 ， 我 们 不妨 称 它们 为 4 和 8 有， 使 用 不 同 的 路 由 算法 计算 
到 达 目 的 地 的 最 短路 径 ， 那 么 就 有 可 能 将 4 指向 8B 作为 到 达 XX 的 最 短路 径 的 下 一 跳 ; 对 于 已 ， 反 之 
亦 然 。 这 将 导致 发 送 色 六 的 分 组 在 4、B 之 间 循 环 。 在 数据 层 的 错误 检测 或 校正 算法 也 是 同样 的 例子 。 
如 果 发 送 方 和 接收 方 对 数据 编码 和 解码 分 别 应 用 不 同 的 算法 ,那么 就 无 法 正常 工作 。 

与 实现 相关 的 设计 

与 协议 规范 不 同 ， 在 协议 实现 中 存在 很 大 的 灵活 性 并非 算法 在 探 制 平面 和 数据 平面 王 的 每 一 部 
分 都 需要 标准 化 。 例 如 ， 实 现 一 种 路 由 算法 ， 如 Dijkstra 算法 ， 震 要 一 种 数据 结构 来 存储 网 络 的 折 扑 结 
构 ， 并 用 路 由 算法 在 该 数据 结构 [查找 到 达 日 的 地 的 所 有 最 短路 径 ， 但 是 实现 并 不 需要 标准 化 。 人 们 
可 以 设计 出 比 在 教科 书 中 更 有 效 的 方法 进行 计算 。 另 一 个 例子 是 分 组 转发 中 的 表 查 找 算法 。 设 计 一 种 
数据 结构 来 存储 大 量 的 表 项 并 设计 出 相应 的 查找 和 更 新 算法 ， 使 它们 能 够 在 速度 和 规模 方面 打败 日 前 
的 最 佳 设计 ， 始 终 都 是 一 个 有 趣 的 挑战 。 

分 层 协 议 

实际 上 于， 互 操作 性 问题 不 仅 存 在 于 两 种 系统 之 间 ， 还 存在 于 两 种 协议 之 间 ， 只 有 一 个 协议 不 足以 
驱动 系统 。 事 实 上 ， 是 协议 栈 驱 动 整个 系统 。 协 议 栈 由 分 层 的 一 组 协议 组 成 ， 其 中 每 层 包 含 部 分 数据 
通信 机 制 ， 并 为 上 层 提 供 服 务 ， 将 一 个 复杂 的 系统 抽象 成 模块 化 的 实体 〈( 即 就 是 这 里 的 分 层 协议 ) 是 
一 种 自然 的 进化 ， 这 样 就 隐藏 了 低层 细节 ， 并 还 要 为 它们 的 上 上层 提 供 服 务 。 

由 于 两 个 系统 需要 使 用 相同 的 协议 才能 进行 通信 ， 所 以 在 不 同 层 次 上 的 协议 也 需要 服务 接口 (如 
send 和 recv) 在 同一 系统 中 交换 数据 。 当 这 两 个 协议 之 间 使 用 一 个 公共 接口 时 ， 系 统 就 具有 更 多 的 灵 
活性 ， 在 需要 时 替代 协议 栈 中 的 任何 协议 ， 例 如 ， 两 个 远程 终端 主机 世 和 了 有 具有 一 个 4-B-C 的 协议 栈 ， 
其 中 4 是 上 层 ，C 是 特定 链 路 的 协议 ， 邢 么 XX 应 该 能 够 用 DD 取代 C， 也 就 是 说 用 于 更 可 靠 链 路 的 协议 ， 
同时 仍 保持 4、8 不 变 ， 与 Y 中 相应 的 4 和 BB 进行 互 操作 。 然 而 ,因为 《运行 C 和 Y 运 行 D 是 在 两 个 
单独 的 链 路 上 ， 所 以 还 应 该 有 一 人 台中 间 设 备 ， 比 如 ZZ， 在 XX 和 Y 之 间 将 它们 桥接 起 来 


1.3 互联 网 体系 结构 

假定 分 组 交换 的 约束 原则 ， 互 联网 就 有 其 解决 方案 ， 以 实现 1.1 节 所 述 的 数据 通信 的 三 个 要 求 ， 
即 连通 性 、 可 扩展 性 、 资 源 共 享 。 为 互联 网 体系 结构 选用 的 所 有 解决 方案 都 有 其 哲学 上 的 理由 。 然 而 ， 
还 存在 其 他 数据 通信 体系 结构 ， 如 曾经 风靡 一 时 的 异步 传输 模式 (ATM) 和 新 兴 的 多 协议 标签 交换 
(MPLS)。 与 互联 网 体系 结构 相 比 ， 它 们 具有 共同 点 和 一 些 特性 。 当 然 ， 它们 也 有 一 套 哲 学 思想 来 证 明 
它们 的 设计 选择 ， 一 个 特定 的 解决 方案 是 否 流 行 往往 取决 于 : 1) 谁 最 先 出 现 ; 2) 谁 能 最 好 地 满足 三 
个 要 求 。 显 然 互 联网 的 首次 出 现 可 以 追溯 到 1969 年 ， 并 且 已 经 圆满 地 达到 了 要 求 ， 尽 管 一 直 以 来 都 存 
在 使 之 经 历 根本 性 变化 的 压力 。 

本 节 揭 示 了 在 互联 网 体系 结构 中 所 采用 的 关键 解决 方案 。 除 了 无 状态 路 由 外 ， 为 了 解决 连通 性 ， 
端 到 端 观点 作为 定义 应 在 哪里 放置 机 制 ， 或 在 网 络 内 和 网 络 外 应 该 做 什么 的 关键 哲学 理念 。 在 这 一 观 
点 指导 下 定义 了 协议 层 ， 然 后 出 现 了 子 网 和 域 的 概念 ， 以 便 支 持 所 需要 的 可 扩展 性 。 作 为 分 组 交换 中 
最 球 手 的 问题 ， 通 过 公共 的 尽 最 大 努力 的 运营 商 服 务 、 互 联网 协议 (IP)， 再 加 上 两 个 端 到 端的 服务 : 
传输 控制 协议 〈《TCP) 和 用 户 数据 报 协议 (UPP)， 就 解决 了 资源 共享 问题 。TCP 提供 端 到 端的 拥塞 控 
制 优雅 地 共享 带宽 和 一 种 可 靠 的 无 丢失 服务 ;UDP 则 提供 一 种 简单 无 控制 的 和 不 可 靠 的 服务 。 


1. 3. 1 连通 性 解决 方案 
两 个 不 相 邻 的 端点 通过 带 有 节点 和 链 路 的 路 径 来 连接 。 为 了 决定 如 何 建立 和 保持 端 到 端 连通 性 的 
互联 网 ， 人 们 必须 做 出 三 项 决策 : 1) 路 由 式 或 交换 式 的 连接 ; 2) 端 到 端 或 逐 跳 机 制 ， 以 维护 连接 的 
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正确 性 (可靠 的 和 有 序 的 分 组 分 发 ); 3) 在 建立 和 维护 这 种 连通 性 时 如 何 组 织 任务 。 对 于 互联 网 ， 决 
定 采 川路 由 实现 这 种 连通 性 ， 在 端 到 端 保持 它 的 正确 性 ， 并 将 任务 组 织 成 四 个 协议 层 

路 由 : 无 状态 的 和 无 连接 的 

如 工 11 节 中 所 讨论 的 ， 尽 管 交 换 要 比 路 由 快 ， 但 它 需 要 交换 设备 记忆 所 有 的 状态 信息 ， 也 就 是 
在 虚 电 路 表 中 从 (输入 端口 ,输入 虚 电 路 号 ) 到 (输出 端口 ， 输 出 虚 电 路 号 ) 的 映射 。 与 电信 的 连续 
语音 通信 不 同 ， 数 据 通信 通常 是 突 发 性 的 。 保持 长 时 间 但 又 具 突 发 性 的 连接 状态 信息 ， 从 内 存 利 用 率 
来 讲 是 低 效 的 ， 因 为 这 些 状态 信息 长 时 间 保 存在 内 存 中 但 偶尔 才 使 用 。 同样， 考虑 到 初始 时 间 延 迟 为 
短暂 的 连接 建立 状态 信息 ， 仅 为 了 传输 几 个 分 组 就 花费 很 大 的 开销 也 是 低 效率 的 简单 地 讲 ， 对 于 数 
据 通 信 ， 从 空间 和 时 间 开 销 权衡 ， 交 换 要 比 路 由 效率 更 低 

然而 ， 路 由 并 不 是 在 各 个 方面 都 占 优 热 。 正 如 1.1.1 节 中 介绍 的 那样 ， 互 联网 上 的 路 由 将 取出 分 
组 中 完整 的 目的 地 地 址 与 转发 表 (有 时 也 称 为 路 由 表 ) 进行 对 比 ， 这 就 需要 匹配 过 程 能 够 遍历 一 个 很 
大 的 数据 结构 ， 因 此 需要 花费 多 次 内 存 访 问 和 匹配 指令 。 男 一 方面 ， 交 换 则 提取 分 组 中 的 虚 电 路 号 以 
使 索引 到 虚 电路 表 中 ， 因 此 仅 需 要 一 次 内 存 访 问 就 够 了 。 

许多 网 络 体系 结构 ， 包 括 ATM 、X. 25 、 帧 中 继 和 MPLS， 都 采用 交换 式 。 它 们 都 可 以 看 做 是 来 自 电 
信行 业 的 数据 通信 和 解决 方案 ， 都 是 从 POTS (这 当然 是 一 个 交换 系统 ) 演变 而 来 的 。 在 图 1-9 中 ， 把 所 有 
这 些 体系 结构 上 置 于 有 状态 的 频谱 上 ， 这 里 状态 不 仅 意味 着 存储 在 节点 中 的 表 项 ， 还 包括 为 流 或 链 路 
预 留 的 带 贫 。 有 具有 上 述 两 种 状态 的 POTS 是 纯粹 的 电路 交换 ， 而 其 余 的 都 是 分 组 交换 。 在 分 组 交换 中 ， 
互联 网 和 MPLS 分 别 为 路 由 和 “ 软 状 态 ” 交 换 ， 而 其 余 的 都 是 “ 硬 状 态 ” 交 换 。ATM 比 X.25 和 帧 中 
继 更 有 状态 ， 因 为 它 为 每 条 连接 提供 带宽 分 配 。 

电路 交换 。” 硬 状 态 交换 “” 硬 状态 交换 “ 软 状态 交换 路 由 
有 状态 的 -一 | | 上 ~ 无 状态 的 
POTS ATM X25 MPLS 五 联网 
帧 中 继 
图 1-9 ”状态 的 频谱 





行动 原则 : 不 断 受到 挑战 的 无 状态 

有 人 可 能 会 说 ， 互 联网 架构 最 独特 的 选择 是 无 状态 的 路 由 选择 .最 开始 的 决策 已 经 将 它 引 向 了 无 
状态 、 无 连接 的 网 络 ， 所 有 分 组 都 独立 地 发 送 而 没有 事先 在 中 间 路 由 器 建立 一 条 路 径 。 无 状态 意味 着 
路 由 器 不 保留 任何 跟踪 经 过 分 组 流 的 状态 信息 。 有 了 无 状态 路 由 的 简洁 性 (以 及 本 节 其 他 关键 的 设 
计 ) ， 互 联网 可 以 很 好 地 扩展 ， 并 为 数据 通信 中 的 所 有 应 用 程序 提供 灵活 的 连通 性 和 经 济 的 资源 共享 。 

实际 上 ， 围 绕 互 联网 是 否 应 该 保持 纯粹 无 状态 引发 了 不 少 争议 。 事 实 上 ， 许 多 新 的 需求 ， 尤 其 是 
那些 对 服务 质量 (QoS) 和 组 播 的 需求 ， 已 经 制定 了 许多 建议 将 有 状态 元 素 加 入 到 互联 网 架构 中 ， 这 
一 点 我 们 将 分 别 在 第 4 章 和 第 7 章 中 学 习 到 。 并 非 只 有 QoS 和 组 播 骂 待 对 架构 进行 政 进 。 作 为 另 一 个 
迫切 需求 ， 由 于 链 路 带宽 的 迅速 增加 ， 线 速 转 发 就 需要 分 组 交换 而 非 路 由 。MPLS 的 目的 在 于 通过 交换 
更 多 的 分 组 而 进行 更 少 的 路 由 来 加 快 互联 网 的 速度 。 如 前 所 述 ， 交 换 比 路 由 速度 快 ， 就 是 因为 前 者 仅 
需要 简单 的 索引 庶 电 路 表 ， 而 后 者 在 查找 表 期 间 需 要 更 为 复杂 的 匹配 。 与 硬 状 态 交 换 的 ATM 不 同 ， 
MPLS 是 软 状 态 交 换 ， 这 意味 着 如 果 一 个 分 组 流 交 换 过 期 或 不 存在 ， 它 可 以 回 过 头 来 使 用 无 状态 的 路 
由 。 是 否 能 够 将 MPLS 大 规模 地 部 署 到 原来 的 互联 网 架构 上 ， 目 前 仍 处 在 研究 之 中 ， 但 新 的 要 求 (如 
保证 性 能 的 QoS、 用 于 组 通信 或 发 布 的 组 播 、 用 于 更 快 体系 结构 的 线 速 转发 ) 在 得 到 满足 之 前 还 会 有 
更 新 的 要 求 不 断 地 出 现 。 


端 到 端的 观点 

为 了 从 源 到 目的 地 提供 可 靠 的 、 有 序 的 分 组 发 送 ， 差 错 控 制 和 流量 控制 应 该 建立 在 逐 跳 或 端 到 端 
的 基础 上 ， 也 就 是 说 ， 在 所 有 链 路 上 或 者 仅 在 终端 主机 上。 逐 跳 观点 就 是 ， 如 果 在 所 有 链 路 上 的 传输 
是 可 靠 的 和 有 序 的 ， 那 么 就 能 保证 端 到 端 传 输 的 可 靠 性 和 有 序 性 。 然 而 ， 这 种 观点 只 有 当 节 点 没有 错 
这 时 才 会 成 立 。 因 为 路 径 由 节点 和 链 路 组 成 ， 保 证 链 路 操作 的 正确 性 并 不 包括 节点 操作 的 正确 性 ， 所 
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以 不 能 保证 沿路 径 的 端 到 端 交 付 。 在 终端 主机 上 仍然 震 要 差错 和 流量 控制 机 制 来 防止 竹 点 的 错误 。 端 
到 端的 观点 就 是 说 ， 不 要 将 它 放 在 较 低 的 层次 ,除非 它 能 在 此 彻底 完成 ， 这 样 才能 得 以 实施 。 虽 人 然 有 
些 逐 跳 差 错 和 流量 控制 仍然 可 以 在 链 路 上 实现 ,但 它们 仅 用 于 性 能 优化 以 便 及 时 检测 和 恢复 错误 。 背 
到 端 机 制 仍然 是 保证 连通 性 正确 的 主要 选择 ， 

端 到 端 观点 也 可 以 将 复杂 性 推 向 网 络 的 边缘 并 保持 网 络 核心 简单 以 便 很 好 地 扩展 。 对 应 用 感知 服 
务 的 处 理应 该 仅 在 终端 主机 上 完成 ， 是 在 网 络 的 外 部 而 不 是 内 部 ， 从 而 仅 在 网 络 内 部 留 下 单一 的 运营 
商 服务 。 我 们 将 在 资源 共享 的 解决 方案 中 认识 到 这 一 点 

四 层 协议 栈 

在 设计 复杂 数据 通信 系统 时 的 抽象 会 导致 协议 层次 的 划分 ， 下 层 对 上 层 隐 藏 细节 。 但 是 ， 到 底 震 
要 多 少 层 ? 在 每 层 中 放 入 什么 内 容 ? 四 层 互 联网 体系 结构 有 时 也 简称 为 TCPAIP 协议 ， 这 是 根据 商 个 代 
表 了 两 层 的 重要 协议 而 得 名 。 底 层 是 链 路 层 ， 其 中 可 能 由 各 种 链 路 的 许多 协议 组 成 。 链 路 层 协 以 依赖 于 
硬件 ， 通 过 将 硬件 (适配器 卡 ) 和 软件 〈 适 配器 红 动 程序 ) 结合 起 来 实现 。 基 于 链 路 层 ，IP 层 包 括 一 
个 协议 (四)， 通 过 无 状态 路 由 提供 主机 到 主机 的 连接 ( 端 到 端的 连接 与 数据 链 路 层 中 的 逐 跳 连接 )。 
第 三 层 是 传输 层 ， 它 包含 两 个 协议 (TCP 和 UDP) TCP 和 UDP 提供 最 上 : 面 应 用 层 所 需要 的 进程 到 进 
程 的 连接 。 传 输 层 将 底层 网 络 的 拓扑 结构 细节 隐藏 到 为 应 用 层 通 信 进 程 抽 象 的 虚拟 链 路 或 信道 之 后 
应 用 层 对 每 一 个 客户 端 一 服务 天 或 对 等 应 用 都 有 一 个 协议 。 

图 1-10a 显示 了 互联 网 协议 栈 及 常用 的 协议 。 标 有 虚线 圆 的 协 以 属于 控制 平面 协议 ， 而 其 余 的 属 
于 数据 平面 协议 。 注意 ，TCP、UDP 和 IP 用 作 核 心 协 议 支 持 很 多 应 用 协议 ， 同时 包括 许多 可 能 存在 的 
链 路 。 我 们 将 在 后 面 的 章节 中 详细 介绍 图 1-10a 中 的 重要 协议 。 在 这 种 四 层 协 议 栈 中 的 一 个 例子 就 是 
HTTP 一 TCP 一 IP 一 以 太 网 ， 数 据 有 效 载 集 依次 封装 HTTP 头 部 、TCP 头 部 、IP 头 部 ， 然 后 在 传输 时 封 
装 以 太 网 头 部 ， 当 接收 后 则 反 过 来 处 理 ， 如 图 1-10b 所 示 
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1.3.2 可 扩展 性 解决 方案 
如 何 将 大 量 节点 集聚 起 来 决定 了 系统 具有 多 大 的 扩展 性 。 寻 址 这 些 节点 就 成 为 关键 问题 。 图 1-1 
说 明了 一 种 以 三 层 结构 组 织 40 亿 个 节点 的 方法 。 但 我 们 如 何 寻 址 和 组 织 这 些 节 点 呢 ? 将 互联 网 扩展 到 
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40 亿 人 台 主 机 作为 一 个 设计 目标 ， 就 必须 回答 三 个 基本 设计 问题 : 1) 层次 化 结构 有 多 少 层 ; 2) 每 个 层 
次 有 多 少 个 实体 ; 3) 如 何 管理 这 个 层次 化 结构 。 如 果 节 点 分 组 仅 有 一 层 ， 组 的 大 小 为 236， 那 么 组 的 
个 数 就 是 16 777 216， 这 对 于 互 连 的 路 由 器 来 讲 就 太 大 而 不 能 处 理 。 这 些 路 由 带 必 须知 道 如 此 大 量 的 
群体 ， 如 图 1-1 所 示 ， 如 果 添 加 另 一 个 层次 并 且 超 组 的 大 小 也 是 2356， 那 么 超 组 内 的 组 数量 和 超 组 数量 
将 分 别 是 256 和 65 536。 对 于 网 络 运 营 商 (一 个 组 织 或 一 个 ISP) 来 讲 ，256 是 可 管理 的 ， 而 对 于 核心 
路 由 器 来 讲 65 536 是 可 以 接受 的 大 小 ， 因 此 ， 互 联网 采用 三 层 结构 ， 子 网 作为 最 底层 、 自 冶 系统 
(AS) 作为 中 间 层 ， 而 将 许多 AS 留 在 项 层 


子 网 

互联 网 利用 子 网 来 表示 物理 网 络 中 具有 连续 地 址 块 的 节点 。 一 个 物理 网 络 由 链 路 (点 对 点 或 广 
播 ) 和 与 它 相 连 的 节点 组 成 。 广播 链 路 上 的 子 网 形成 了 一 个 局 域 网 ， 这 就 是 一 个 广播 域 。 也 就 是 说 ， 
发 向 局 域 网 的 主机 的 分 组 可 以 被 这 个 局 域 网 上 的 任何 主机 或 路 由 器 转发 ， 并 被 一 跳 以 内 的 目的 地 主机 
自动 接收 。 然 而 ， 在 子 网 或 局 域 网 之 间 传 输 的 分 组 需要 由 路 由 玲 偿 跳 转 发 。 在 点 对 点 链 路 上 的 子 网 通 


常 形 成 两 台 路 由 器 之 间 的 一 条 广域网 链 路 ， 图 1-11 说 明了 由 子 网 掩 码 和 前 组 定义 的 子 网 ， 这 将 在 第 4 
营 中 讨论 
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图 1-11 子 网 、 子 网 抢 码 、 前 级 : 分 段 的 连续 地 址 块 

点 对 点 链 路 上 的 子 网 大 小 固定 为 两 个 和 节点。 在 广播 链 路 上 的 子 网 大 小 通常 取决 于 性 能 和 管理 策略 
然而 ,一 个 子 网 中 包含 太 多 的 主机 ， 将 导致 严重 的 争 用 。 与 此 同时 ,管理 策略 通常 更 喜欢 在 其 管理 域 
中 所 有 子 网 的 大 小 保持 回 定 。 通常 将 子 网 的 大 小 设置 为 256 

自治 系统 

将 互联 网 王 的 节点 分 成 组 ， 以 便 形 成 很 多 由 路 由 需 互 连 的 子 网 ， 目 前 ， 互 联网 规模 已 经 有 超过 5 
亿 人 台 主 机 ， 数 百 万 台 路 由 器 。 如 果子 网 的 平均 大 小 为 50 ， 那 么 子 网 的 数量 将 有 100 万 ， 这 就 意味 着 路 
由 器 将 记 住 和 查询 大 多 的 子 网 条 目 。 

很 显然 ， 在 子 网 之 上 :还 需要 有 男 一 个 层次 。 一 个 自治 系统 (AS， 有 时 又 称 为 域 ) 由 一 个 组 织 管理 
的 子 网 和 将 它们 连接 起 来 的 路 由 器 所 组 成 。AS 内 的 一 台 路 由 器 知道 所 有 的 内 部 AS 路 由 器 和 AS 内 的 子 
网 ， 以 及 负责 AS 之 间 路 由 的 多 台 外 部 AS 路 由 器 。 内 部 AS 路 由 融 将 分 组 转发 到 同一 AS 中 的 主机 上 
如 果 分 组 的 目的 地 是 另 一 个 AS 中 的 主机 ， 事 情 就 会 更 加 复杂 。 它 首先 通过 多 人 台 内 部 AS 路 由 器 将 分 组 
转发 到 本 地 AS 的 一 台 外 部 AS 路 由 器 ， 然 后 由 外 部 AS 路 由 咒 将 分 组 转发 到 目的 地 AS， 最 后 再 由 目的 
地 AS 的 内 部 AS 路 由 器 将 分 组 转发 到 目的 地 的 主机 。 

有 了 子 网 和 AS， 内 部 AS 或 外 部 AS 的 分 组 转发 都 可 以 以 一 种 可 扩展 的 方式 进行 ， 而 不 会 给 内 部 
AS 和 外 部 AS 路 由 器 带 来 太 大 的 负担 .如果 AS 内 的 子 网 平均 数 为 50，AS 数量 将 是 20 000， 这 是 一 个 
外 部 AS 路 由 器 能 够 负担 人 处理 得 起 的 数量 。AS 不 仅 解 决 了 可 扩展 性 问题 ， 而 且 还 为 运营 商 保留 了 对 网 
络 的 管理 权 。AS 内 部 的 路 由 和 其 他 操作 可 以 分 开 ,， 并 且 对 外 部 世界 是 不 可 见 的 

图 1-12 说 明 在 中 国 台 湾 交 通 大 学 (NCTU) 的 AS， 在 同一 AS 中 ， 给 每 个 系 分 配 了 多 个 子 网 。 整 
个 互联 网 有 成 千 上 万 个 类 似 于 这 样 的 域 ， 
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图 1-12 一 个 例子 域 、AS 或 超 组 : NCTU 


1. 3.3 资源 共享 的 解决 方案 

与 主要 用 于 电话 的 电信 相 比 ， 数 据 通信 有 种 类 繁多 的 应 用 。 那么 重要 的 是 决定 互联 网 体系 结构 是 
伸 应 该 有 多 种 类 者 的 连通 性 ， 每 个 应 用 一 种 

多 种 应 用 并 不 是 唯一 的 问题 。 由 于 分 组 交换 导致 的 拥塞 其 至 提出 了 一 个 更 加 展 巨 的 挑战 。 应 施加 
某 种 拥塞 控制 和 流量 控制 ， 以 避免 产生 网 络 和 接收 方 的 缓冲 区 溢出 。 从 端 到 端的 观点 中 可 以 推出 ， 应 
沪 主 要 在 源 路 由 器 上 而 不 是 在 中 间 路 由 天上 进行 流量 控制 ， 

总 之 ， 互 联网 架构 在 决定 资源 共享 方式 时 已 经 回答 了 三 个 问题 : 1) 是 否 应 该 区 分 不 同 应 用 的 流量 
处 理 ; 2) 资源 共享 策略 是 什么 ; 3) 流量 控制 机 制 放 在 哪里 来 执行 策略 。 互 联网 在 网 络 内 部 提供 普通 
的 尽 最 大 弩 力 服务 ， 同 时 使 用 端 到 端的 拥塞 和 流量 控制 在 带宽 共享 中 实现 公平 的 策略 。 

普通 的 尽 最 大 努力 服务 : 了 

可 以 将 应 用 至 少 分 成 三 种 类 型 : 交互 式 、 文 件 传输 和 实时 的 。 交互 式 应 用 产生 少量 的 流量 ， 但 需 
昌 及 时 地 做 出 响应 ， 另 一 方面 ， 文 件 传输 应 用 产生 大 量 的 流量 ， 可 以 容忍 较 高 的 延 退 。 实 时 应 用 则 婚 
有 连续 的 流量 也 有 低 延 迟 的 需求 。 如 果 要 为 了 支持 每 种 应 用 都 要 有 一 种 连接 类 型 ， 那 么 互联 网 内 部 的 
路 由 器 就 要 是 类 型 感知 的 ， 以 便 对 不 同 的 分 组 进行 处 理 。 但是， 互联 网 提供 了 单一 类 型 的 连接 服务 ， 
即 尽 最 大 努力 IP 服务 。 在 共享 有 限 的 资源 时 ， 所 有 的 ITP 分 组 都 一 样 处 理 

作为 一 种 互联 网 核心 的 运营 商 服 务 ，IP 具有 分 组 交换 最 原始 的 形式 。 它 是 原始 的 ， 因 为 除了 进行 
转发 之 外 它 不 具有 增值 服务 ， 只 有 差错 检测 的 简单 校 验 和 ， 它 没有 内 置 的 流量 控制 ， 从 甜 吐 量 、 延 迟 、 
拌 动 和 丢失 上 来 讲 ， 它 是 不 可 靠 的 。 也 就 是 说 ， 它 不 能 保证 能 以 多 快 的 速度 发 送 分 组 ， 分 组 何 时 会 到 
达 目 的 地 ， 其 至 还 不 知道 分 组 是 否 能 够 可 以 到 达 目 的 地 。 它 也 不 能 保证 一 系列 分 组 的 按 序 发 送 ， 分 组 
流 到 达 目 的 地 的 顺序 与 分 组 流离 开源 的 顺序 可 能 不 相同 。 然 而 ， 如 果 校 验 和 无 效 ， 它 就 丢弃 分 组 ， 并 
且 如 果 有 错误 恢复 就 将 恢复 留 给 端 到 端的 协议 来 完成 。 如 果 应 用 程序 需要 错误 恢复 或 流量 控制 ， 这 些 
增值 服务 就 要 依赖 于 特定 的 端 到 端的 协议 来 完成 。 

端 到 端的 拥塞 控制 和 错误 恢复 : TCP 

TCP 是 “有 礼貌 ”的 端 到 端的 协议 ， 用 来 调整 从 源流 出 的 分 组 中 的 突 发 位 ， 以 便 使 所 有 流量 可 以 
公平 地 共享 资源 。 通 过 要 求 所 有 源 “ 有 礼貌 地 ”对 拥塞 做 出 响应 ， 就 会 减少 碰 上 拥塞 以 及 需要 从 拥塞 
中 恢复 的 机 会 。TCP 也 是 运行 错误 恢复 的 一 种 可 靠 的 端 到 端 协议 。 从 丢失 方面 来 计 ， 它 是 可 靠 的 ， 即 
由 于 错误 或 拥塞 而 丢失 的 分 组 可 通过 TCP 协议 恢复 。 然 而 ， 从 其 他 性 能 测量 (如 和 在 吐 景 、 延 迟 、 拌 
荔 ) 来 讲 ， 它 仍然 是 不 可 靠 的 。 为 了 保证 这 些 性 能 测量 ,分 组 交换 就 需要 额外 的 、 通 常 有 状态 的 在 网 
络 内 部 实施 的 机 制 ， 虽 然 确实 存在 这 样 的 解决 方案 ， 但 是 却 没有 被 大 规模 地 部 署 。TCP 的 无 斑 失 保证 
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对 于 大 多 数 数据 通信 应 用 来 讲 是 足够 的 。 

还 有 许多 不 需要 无 丢失 保证 的 应 用 。 例如， 分 组 语音 或 视频 流 应 用 就 可 以 容光 很 小 百分比 的 下 失 ， 
同时 仍 能 维持 播放 质量 。 事 实 上 ， 因 错误 恢复 而 采用 的 端 到 端 重 传 所 导致 的 延长 时 间 对 于 这 种 实时 应 
用 来 讲 是 不 可 接受 的 。 其 他 一 些 应 用 ， 如 网 络 管理 ,可 能 有 自己 内 管 到 它们 客户 端 和 服务 器 的 差错 控 
制 ， 从 而 并 不 依赖 于 底层 端 到 端 传 输 服务 中 的 差错 控制 。 对 于 这 些 应 用 ， 通 常 使 用 UDP。 UDP 是 另 一 
种 端 到 端 协 议 ， 虽然 它 相当 原始 ， 仅 有 一 个 简单 的 校 验 和 用 于 差错 检测 ， 但 是 却 没有 差错 恢复 或 流量 
控制 。 在 图 1. 10a 中 ， 我 们 可 以 分 别 看 到 TCP 和 UDP 的 应 用 ， 

为 了 避免 拥塞 并 且 能 够 公平 地 共享 带宽 ,在 TCP 中 要 入 了 一 个 有 趣 的 理念 : 来 自 每 个 流 的 突 发 位 
的 数目 应 该 大 臻 相同。 也 就 是 说 ， 所 有 活动 的 TCP 流 为 互联 网 贡献 的 流量 应 该 是 相同 的 。 突 发 位 数 实 
际 上 就 是 带宽 延 识 乘积 (BDP)。 对 于 相同 的 BDP， 如 果 一 个 TCP 流 以 更 高 的 延迟 传输 更 远 的 路 径 ， 其 
带宽 或 传输 速率 就 要 更 小 一 些 ，TCP 流 没 有 显 式 的 传输 速率 。 相 反 , 它们 使 用 窗口 大 小 来 控制 BDP 
( 突 发 位 数 ) 。 考 虑 一 条 传输 许多 TCP 数据 流 的 链 路 ， 这 些 数 据 流 的 跳 数 或 端 到 端 延 六 可 能 是 不 同 的 ， 
为 了 取得 相同 的 BDP， 其 传输 速率 是 不 同 的 。 即 使 在 带宽 充裕 、 没 有 拥塞 的 情况 下 ,一 条 跨国 TCP 数 
据 流 肯定 比 本 地 TCP 流 的 传输 速率 低 。 

除了 公平 策略 外 ，TCP 需要 调整 其 基于 窗口 的 控制 以 反映 当前 的 网 络 和 接收 方 的 情况 。 首 先 ， 速 
率 应 受 旬 接收 方 容量 的 约束 。 其 次 ， 当 网 络 开始 拥 赛 时 减 慢 速度 ， 并 当 拥 塞 消 弱 时 就 要 增加 速率 。 但 
是 ，TCP 应 该 多 快 地 降低 或 者 提高 其 速率 或 窗口 大 小 ? 线性 增加 和 成 倍 递 减 (AIMD) 显然 是 一 种 不 错 
的 选择 ， 它 会 缓慢 占用 带宽 ,但 拥塞 时 则 响应 迅速 。 许 多 性 能 问题 和 注意 事项 还 需要 进一步 洪 清 ， 这 
些 将 在 第 5 章 中 介绍 : 





1. 3.4 控制 平面 和 数据 平面 操作 

有 了 解决 连通 性 、 可 扩展 性 和 资源 共享 的 决策 ， 为 了 让 互联 网 能 够 如 预期 那样 运行 ， 仍 然 有 许多 
具体 工作 要 考虑 。 它 们 包括 控制 平面 的 路 由 和 错误 报告 、 数 据 平 面 的 转发 、 差 错 控 制 和 流量 控制 ， 

控制 平面 操作 

在 1.225 中 ， 我们 提出 了 路 由 协议 和 算法 设计 中 所 涉及 的 问题 。 所 做 的 选择 可 以 概括 如 下 : 在 
后 台 预 先 计 算 、 逐 跳 、 按 每 个 目的 地 前缀“〈 子 网 或 AS) 粒度 、 内 部 AS 路 由 的 局 部 或 全 局 网 络 状态 信 
息 、 外 部 AS 路 由 的 局 部 网 络 状态 信息 ， 以 及 大 多 数 情 况 下 的 单条 最 短路 径 ， 这 些 选择 都 有 原因 。 当 网 
络 拓扑 结构 是 动态 的 时 ， 就 需要 使 用 按 需 源 路 由 ; 和 否则， 在 每 台 路 由 带 上 预先 计算 逐 跳 路 由 最 合适 。 
对 于 可 扩展 层次 结构 的 子 网 和 AS， 内 部 AS 和 外 部 AS 路 由 的 粒度 分 别 为 按 子 网 和 按 AS。 

正如 在 1.3.2 节 曾 经 讨论 过 的 ， 在 一 个 子 网 数目 很 少 的 儿 十 到 儿 百 个 ) AS 中 ,很 容易 收集 到 局 
部 或 全 局 的 网 络 状 态 信 息 。 然而， 全 局 的 AS 数 可 能 有 成 千 上 万 ， 因 此 很 难 收集 到 最 新 的 全 局 网 络 状态 
信息 。 全 局 网 络 状态 信息 包含 整个 网 络 的 拓扑 结构 ， 并 由 来 自 所 有 路 由 顺 的 链 路 状态 广播 所 构造 。 必 
一 方面 ， 局 部 网 络 状态 信息 包含 到 达 目 的 地 或 子 网 或 AS 的 下 一 践 和 距离 ， 是 通过 相 邻 路 由 器 之 间 交 换 
距离 向 量 构造 的 。 最 后 ， 为 了 简洁 ， 选 择 一 条 最 短路 径 ， 而 不 是 多 条 路 径 。 到 达 一 个 给 定 目 标 子 网 或 
AS 的 多 重 路 径 将 有 更 好 的 资源 利用 率 和 负载 平衡 ,但 这 会 使 路 由 和 转发 的 设计 复杂 化 。 到 达 某 个 目的 
地 在 转发 表 中 有 多 个 表 项 ， 在 控制 平面 中 维护 表 项 并 在 数据 平面 选择 要 经 过 哪 条 表 项 就 不 再 是 微 不 足 
道 的 工作 了 。 路 由 信息 协议 (RIP) 依赖 于 局 部 网 络 状 态 信息 ， 而 开放 最 短路 径 优先 ( OSPF) 依赖 于 
全 局 网 络 状态 信息 ， 它 们 是 两 种 常用 的 内 部 路 由 协议 ， 而 边界 网 关 路 由 协议 (BGP) 依赖 于 局 部 网 络 
状态 信息 ， 在 外 部 AS 路 由 中 处 于 主导 地 位 。 

在 控制 平面 上 还 有 一 些 其 他 的 工作 要 做 。 还 需要 实现 组 播 路 由 、 错 误 报 告 和 主机 配置 。 组 播 路 由 
是 更 加 复杂 的 单 播 路 由 。 尽 管 存在 许多 解决 方案 ， 但 我 们 将 在 第 4 蔓 中 讨论 。 当 路 由 器 或 目的 地 处 理 
分 组 发 生 错误 时 ， 向 源 主 机 报告 。 错 误 报告 也 可 以 用 来 探测 网 络 。 互 联网 控制 消息 协议 (ICMP) 是 用 
于 报告 错误 的 协议 。 主 机 配置 协议 、 动 态 主 机 配置 协议 (DHCP) 是 一 种 自动 配置 任务 的 努力 以 实现 
即 搬 即 用 。 虽 然 完 全 自动 配置 整个 网 络 在 目前 来 讲 仍然 不 可 能 ， 但 是 DHCP 能 让 管理 员 不 用 手动 地 配 
管 所 有 主机 的 IP 地 址 和 其 他 参数 。 然而， 路 由 器 配置 还 需要 依靠 手动 配置 来 完成 
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数据 平面 操作 

转发 分 组 实际 上 是 一 种 表 查 找 的 过 程 ， 从 分 组 中 提取 目的 地 IP 地址 ， 然 后 与 表 项 中 的 IP 前 绥 进 
行 对 比 。 对 于 内 部 AS 和 外 部 AS 转发 ， 表 项 的 粒度 分 别 是 按 子 网 或 按 AS 级 的 。 子 网 或 AS 的 IP 前 级 
可 能 是 从 2 ~32 位 的 任何 长 度 。 匹 配 前 级 的 表 项 中 包含 转发 分 组 的 下 一 跳 信息 。 但 是 ， 如 果 一 个 地 址 
块 被 分 配 到 两 个 子 网 或 AS， 那么 它 就 可 能 有 多 个 匹配 的 前 绥 。 例如， 如 果 地 址 块 140. 113 被 分 成 两 部 
分 ， 如 140. 113. 23 和 其 余部 分 ， 并 分 配给 两 个 AS， 外 部 AS 转发 表 将 分 别 包 含 前 级 为 140. 113 和 
140. 113. 23 的 两 个 表 项 。， 妆 接收 到 目的 地 为 140. 113. 23. 52 的 分 组 时 ， 它 将 与 两 个 表 项 匹配 。 默 认 时 ， 
遵循 最 长 前 组 匹配 

按照 1.3.1 节 中 讨论 过 的 有 关 端 到 端的 观点 ， 互 联网 中 的 差错 控制 放 到 了 端 到 端的 TCP 和 UDP 
中 ，TCP 和 UDP 中 的 校 验 和 可 以 检查 整个 数据 分 组 中 的 错误 ， 尽管 它 只 能 检测 出 单个 位 错误 。 如 果 检 
测 到 一 个 错误 ，UDP 接收 方 就 丢 奔 并 忽略 这 个 分 组 ， 但 是 TCP 接收 方 则 会 告知 TCP 发 送 方 ， 请 求 重 
传 - 在 正中 的 校 验 和 仅 保护 分 组 的 头 部 ， 以 避免 协议 处 理 中 的 错误 ， 但 它 并 不 保护 分 组 中 的 有 效 载 
位 。 在 节点 上， 如 果 检 测 到 一 个 错误 ， 慎 么 节点 就 会 丢弃 这 个 分 组 ， 并 向 源 发 送 一 个 ICMP 分 组 。 源 

效 


如 何 处 理 ， 就 要 依赖 县 体 的 实现 了 。 为 了 效率 ， 许 多 底层 的 链 路 也 会 将 差错 控制 放 在 链 路 层 上 实现 ， 
但 这 种 差错 控制 独立 于 在 TCP、UDP 和 人 已 经 实现 的 功能 。 


拥塞 控制 的 目的 是 避免 和 解决 拥 寨 ， 以 及 公平 地 共享 带宽 资源 。TCP 提供 了 一 个 相当 令 人 满意 的 
解决 方案 ， 如 1.3.3 节 中 所 述 。 另 一 方面 ，UDP 像 一 个 狂 野 的 赛车 手 那样 随心 所 欲 地 发 送 分 组 。 虽 然 
日 前 从 整体 流量 容量 来 讨 TCP 流量 仍然 占 主流 ,但 流 媒 体 和 VoIP 应 用 将 来 可 能 有 一 天 会 使 UDP 流量 
超过 TCP。 当 混合 了 UDP 流量 后 ，TCP 流量 则 会 受到 损害 。 这 急切 需要 新 的 研究 通过 类 似 于 TCP 那样 
的 端 到 端 拥塞 和 流量 控制 来 限制 UDP， 总 之 ，UDP 流 应 该 是 TCP 友好 的 ， 这 样 它 对 共存 的 TCP 流 的 冲 
击 影响 与 TCP 流 对 男 一 个 共存 的 TCP 流 的 冲击 影响 一 样 


行动 原则 : 互联 网 体系 结构 特点 

这 是 非常 适合 再 次 强调 互联 网 特点 的 地 方 。 为 了 解决 连通 性 和 资源 共享 的 问题 ， 互 联网 将 端 到 端 
观点 运用 到 了 极致 ， 在 将 复杂 性 推 到 边缘 设备 的 同时 维持 无 状态 的 核心 设备 。 核 心 设备 运行 不 可 靠 的 
无 状态 路 由 ， 而 边缘 通过 差错 控制 和 拥塞 控制 分 别 用 来 保证 正确 性 和 健壮 性 。 一 个 带 有 子 网 和 域 的 简 
单 的 三 层 结构 就 足以 将 互联 网 扩展 到 高 达 数 十 亿 个 节点 。 但 还 需要 有 额外 的 机 制 来 保证 能 够 遵守 上 述 
特点 。 但 是 O0S1、ATM 、 通 过 IntServ/DiffServ 的 QoS 和 IP 组 播 等 都 是 无 法 蔡 代 甚至 要 与 互联 网 共存 的 
反例 。 它 们 都 需要 一 个 有 状态 的 核心 ， 以 保持 经 过 连接 的 入 口 表 项 ,转发 更 多 的 分 组 而 路 由 较 少 分 组 
的 MPLS， 也 面临 着 同样 的 困难 。 尽 管 它 的 灵活 性 、 软 状态 切换 允许 MPLS 更 好 地 遵守 无 状态 路 由 ， 可 
以 轻松 地 部 署 在 一 个 小 规模 的 ISP 上 ， 但 是 在 互联 网 上 广泛 采用 MPLS 依然 存在 挑战 . 


1.4 开放 源 代码 实现 

下 联网 体系 结构 为 满足 数据 通信 的 要 求 和 厚 则 ， 提 出 了 一 套 综 合集 成 解决 方案 ， 这 套 解决 方案 是 
一 个 开放 的 标准 。 互 联网 体系 结构 的 开源 实现 将 同样 的 开放 精神 更 向 前 推进 了 一 步 。 本 节 讨 论 互联 网 
体系 结构 开源 实现 的 原因 以 及 如 何 实 现 。 首 先 ， 我 们 将 开放 式 和 封闭 式 的 实现 进行 对 比 。 然 后 我 们 说 
明 在 Linux 系统 中 的 软件 体系 结构 ， 既 包括 主机 上 的 也 包括 路 由 器 于 的。 这 种 体系 结构 分 成 为 几 部 分 : 
内 核 、 驱 动 程序 、 守 护 程序 和 控制 器 ， 并 进一步 对 每 一 部 分 进行 了 简要 的 回顾 。 

我 们 将 更 多 实现 综述 和 两 组 有 用 的 工具 留 在 三 个 附录 中 介绍 。 附录 B 检查 了 Linux 内 核 的 源 代码 
树 ， 并 总 结 了 其 网 络 互 联 代码 。 常 用 并 发 和 应 用 工具 分 别 放 在 了 在 附录 C、 附 录 D 中 介绍 。 进 行 本 书 
的 动手 练习 之 前 ， 我 们 希望 读者 浏览 一 下 这 些 附 录 。 此外， 开源 的 非 技术 方面 ， 还 包括 发 展 历史 、 授 
权 模 式 、 资 源 等 ， 这 些 将 在 附录 A 中 的 A. 2 节 学 习 


1.4.1 开放 与 封闭 


提供 商 : 系统 、IC、 硬 件 和 软件 
在 描述 互联 网 体系 结构 实现 方式 之 前 ， 我 们 应 该 确定 系统 中 的 主要 组 成 部 分 和 所 涉及 的 提供 商 
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不 管 主机 还 是 路 由 器 ， 系 统 都 要 由 软件 、 硬 件 和 集成 电路 (1C) 元 件 组 成 。 在 一 台 主 机 上 上 ， 互 联网 体 
系 结构 大 多 数 以 软件 和 少 部 分 的 I 实现。 协议 栈 中 的 TCP、UDP 和 IP 是 在 操作 系统 中 实现 的 ， 页 应 
用 协议 和 链 路 协议 分 别 在 应 用 程序 和 接口 卡 的 IC 上 上 实现。 如 果 CPU 不 能 提供 所 需要 的 线 速 处 理 ， 那 
么 部 分 协议 实现 可 能 从 软件 迁移 到 IC 上 上 ， 路 由 右上 的 实现 与 此 类 似 ， 

系统 提供 商 可 能 会 自己 开发 和 集成 所 有 上 述 王 种 类 型 的 组 件 ， 也 可 能 会 将 它们 中 的 一 些 外 包 给 软 
件 、 硬 件 或 IC 元 件 提 供 商 。 例 如 ， 一 个 路 由 器 的 系统 提供 商 可 能 利用 来 自 一 个 或 多 个 IC 提供 商 的 板 
载 蕊 设计 、 实 现 并 制造 硬件 ， 同 时 从 软件 提供 商 获 得 许可 让 并 修改 软件 

从 专 有 、 第 三 方 到 开放 源 代码 

有 三 种 方式 将 互联 网 体系 结构 实现 到 一 个 不 管 是 主机 还 是 路 由 咒 的 系统 中 。 它们 分 别 是 1) 专 有 
封闭 式 ; 2) 第 三 方 封闭 式 ; 3) 开源 .一 个 大 的 系统 提供 商 可 以 负担 得 起 数 百 名 工程 师 的 大 型 团队 去 
设计 和 实施 专用 封闭 的 软件 和 集成 电路 。 结 果 是 封闭 系统 完全 由 提供 商 拥 有 其 知识 产权 。 对 于 小 的 系 
统 提供 商 ， 维 持 这 样 一 个 庞大 的 团队 就 过 于 昂贵 。 因此， 小 的 系统 提供 商 宁愿 采用 软件 或 IC 提供 商 提 
供 的 第 三 方 解 决 方案 ， 软 件 或 IC 提供 商 将 白 已 的 实现 转 给 系统 提供 商 ， 但 会 向 他 们 收取 许可 费 和 每 个 
拷贝 的 版 税 〈 软 件 ) 或 购买 费用 (对 于 IC) 

软件 和 集成 电路 的 开源 实现 提供 了 实现 系统 的 第 三 种 方法 ， 无 需 白 己 维持 一 个 庞大 的 团队 或 绑 定 
到 特定 的 元 件 提供 商 ， 系 统 提 供 商 可 以 利用 现 有 的 丰富 软件 资源 ， 而 系统 或 IC 供应 商 也 可 以 利用 不 断 
增加 的 IC 资源。 他 们 反 过 来 义 会 为 开源 社区 做 出 回报 

开放 性 : 接口 或 实现 

当 我 们 提 到 开放 性 时 ， 指 出 要 开放 什么 内 容 很 重要 ， 开 放 的 是 接口 还 是 实现 ”如 果 是 开源 ， 那 么 
我 们 就 是 指 开放 的 实现 。 互 联网 体系 结构 是 一 种 开放 的 接口 ， 市 Linux 则 是 这 种 开放 接口 的 一 种 开放 
实现 。 事 实 上 ， 肉 议 成 为 互联 网 体系 结构 的 标准 之 一 ， 就 是 要 有 既 稳 定 又 开放 提供 的 可 运行 代码 。 这 
里 ， 开 放 的 接口 和 开放 的 实现 往往 是 携手 并 进 的 。 另 一 方面 ，IBM 公司 的 结构 化 网 络 架 构 (SNA) 是 
一 种 封闭 的 接口 并 有 具有 一 个 封闭 的 实现 ， 市 微软 的 Windows 是 开放 互联 网 体系 结构 的 一 种 封闭 实现 
SNA 已 经 消失 了 ， 但 Windows 仍 镜 然 屹 立 。 对 于 来 自 不 同 供应 商 的 系统 之 间 的 互 操作 性 ， 必 须 有 开放 
的 接口 ， 但 不 必要 开放 实现 。 然 而 ， 开 放 的 实现 具有 许多 优点 。 一 个 流行 的 开放 源码 包 具 有 世界 各 地 
的 贡献 者 ， 从 而 导致 能 够 快速 地 打 补 本 来 修复 缺陷 或 增强 功能 ， 而 且 往往 也 会 有 更 好 的 代码 质量 


1.4.2 Linux 系统 中 的 软件 体系 结构 

当 一 种 体系 结构 转换 成 一 个 真正 的 系统 时 ， 确 定 在 何 处 执行 什么 功能 很 重要 。 必 须 进 行 几 个 关键 
的 决策 : 必须 在 何 处 实现 控制 平面 和 数据 平面 操作 ? 什么 功能 必须 在 硬件 、 集 成 电路 、 软 件 中 实现 ? 
如 果 在 软件 中 实现 ， 那 么 它 应 该 在 软件 体系 结构 中 的 哪 一 部 分 ”为 了 能 够 在 基于 Linux 系统 上 进行 这 
些 决策 ， 人 们 应 该 首先 理解 它 的 软件 体系 结构 

进程 模型 

像 任 何其 他 类 UNIX 或 现代 操作 系统 一 样 ，Linux 系统 具有 用 户 空 间 和 内 核 空 间 程序 。 内 核 空 间 程 
序 为 用 户 空间 程序 提供 服务 。 进 程 是 一 个 可 以 在 CPU 上 调度 运行 的 用 户 空间 或 内 核 空间 程序 的 化 身 。 
内 核 空间 进程 驻 留 在 内 核 内 存 空 间 以 管理 系统 操作 ， 为 用 户 空 间 进 程 提供 服务 ， 尽 管 它们 并 不 直接 提 
供 服务 . 用 户 空 间 进程 驻 留 在 用 户 内 存 空 间 ， 可 以 在 前 台 以 应 用 程序 客户 端 运行 或 在 后 台 以 应 用 服务 
器 运行 。 在 内 核 空 间 中 ， 有 些 程序 称 为 设备 钳 动 程序 ， 用 来 执行 一 些 外 于 设备 的 VO 操作 。 驱动 程序 
依赖 于 硬件 而 且 必 须 能 够 识别 外 围 硬件 并 对 它 加 以 控制 。 

当 一 个 用 户 空间 进程 需要 来 自 内 核 空间 程序 的 某 个 特定 服务 (例如 ， 发 送 或 接收 分 组 ) 时 ， 它 就 
发 出 一 个 系统 调用 ， 以 使 在 内 核 空 间 中 生成 一 个 软件 中 断 。 进 程 然 后 切换 到 内 核 空 间 执行 内 核 空间 程 
序 完成 所 要 求 的 服务 。 一 旦 完成 ,进程 便 返 回 到 用 户 空间 运行 它 的 用 户 空间 程序 。 注 意 服 务 由 内 核 空 
问 程 序 (不 是 上 述 管理 系统 的 内 核 空 间 进程 ) 提供 ， 这 是 由 用 户 空 间 进程 在 它们 切换 到 内 核 空间 时 执 
行 的 。 系 统 调用 作为 用 户 空间 和 内 核 空 间 之 问 的 应 用 程序 接口 (AP1) 。 套 接 字 (socket) 是 专用 于 网 
络 互联 目的 的 系统 调用 的 一 个 子 集 。 在 1.4. 4 节 中 将 对 套 接 字 做 更 多 的 介绍 
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在 何 处 实现 什么 功能 

假定 上 述 进 程 模型 ， 可 以 遵守 多 个 原则 来 决定 在 何 处 实现 什么 功能 。 由 于 内 核 空 间 程序 为 用 户 空 
问 程序 提供 基本 的 服务 ， 所 以 独立 于 应 用 的 程序 应 该 作为 内 核 空间 程序 来 执行 ， 而 将 应 用 程序 客户 端 
和 服务 器 放 在 用 户 空间 程序 中 实现 。 在 内 核 空间 中 ,依赖 于 硬件 的 处 理应 该 以 设备 蝶 动 程序 的 形式 来 
实现 ， 而 其 余 的 则 驻 贸 在 核心 操作 系统 上 实现 。 遵循 这 些 指 导 方 针 , 在 Linux 系统 中 的 何 处 实现 什么 
功能 就 显 而 易 抑 ， 所 有 的 应 用 协议 在 用 户 室 间 的 客户 端 和 服务 带 中 实现 ,而 TCP、UDP 和 耳 在 Linux 
内 核 中 实现 : 各 种 依赖 于 硬件 的 链 路 层 在 驱动 程序 和 硬件 中 实现 。 根 据 已 经 在 硬件 〈 既 可 以 是 简单 的 
板 载 电路 也 可 以 是 ASIC) 上 实现 的 功能 ， 用 于 链 路 上 的 驱动 程序 可 以 是 链 路 层 协 议 处 理 融 也 可 以 是 一 
个 纯粹 的 “分 组 读 取 融和 写 入 融 ”。 对 于 定时 对 保证 正确 链 路 协议 操作 很 重要 的 链 路 |:， 链 路 层 协 议 
应 该 由 ASIC 来 完成 而 无 需 CPU 的 参与 ， 和 否则 ， 用 于 链 路 的 硬件 可 以 是 一 个 简单 的 收发 融 ， 而 将 协议 
的 处 理 留 给 链 踏 的 驱动 程序 来 完成 。 

在 IP 中 实现 转发 时 ， 差 错 控 制 大 多 放 在 TCP 中 ， 当 然 某 些 也 可 能 在 IP 和 UDP 中 实现 ， 而 流量 控制 在 
TCP 中 实现 , 但 所 有 这 些 者 要 在 Linux 内 核 中 实现 还 有 一 个 问题 是 : 我 们 应 该 将 互联 网 的 控制 平面 操作 放 
在 何 处 ”它们 应 该 在 RIP、OSPF 和 BCP 中 ,包括 路 由 ,在 ICMP 中 包括 错误 报告 ， 在 DHCP 中 包括 主机 配 
置 。 既然 ICMP 简单 并 独立 于 应 用 ， 它 就 应 该 和 下 协议 一 起 放 入 内 核 中 。 尽 管 独立 于 应 用 程序 ， 但 RIP、 
OSPF 、BGP 和 DHCP 也 很 复杂 〈 尤 其 是 前 于 个 ， 震 要 运行 复杂 的 路 由 计算 算法 ) ， 但 仅 用 于 控制 分 组 的 处 
理 ， 因 此 ， 将 它们 放 入 用 户 空间 程序 ， 作 为 守护 进程 持续 在 后 台 运 行 。 可 以 看 到 ， 所 有 的 单 播 和 组 播 路 由 协 
议 者 在 守护 程序 中 实现 。 不 把 它们 放 入 内 核 的 男 一 个 原因 是 因为 它们 的 数量 太 多 了 。 但 是 ， 它 们 作为 守护 程 
序 实现 会 产生 男 一 个 问题 。 路 由 守护 进程 需要 更 新 由 位 于 内 核 中 的 IP 转发 程序 所 管理 的 转发 表 。 决 策 就 是 
为 路 由 守护 程序 在 内 核 中 通过 用 户 空 间 与 内 核 空 间 之 间 的 柑 套 字 API 写 人 数据 结构 

路 由 器 和 主机 内 部 

通过 以 下 两 个 例子 向 读者 展示 在 网 络 节 点 中 可 以 实现 什么 样 的 常用 操作 以 及 它们 所 处 的 位 置 。 
图 1-13 显 示 了 路 由 器 的 常用 操作 。， 路 由 协议 (RIP、0SPF、BGCP 等 ) 执行 守护 程序 (routed 、gated 或 
zebra 用 于 高 级 的 路 由 协议 ) ， 从 而 更 新 用 于 “协议 驱动 程序 ”所 查找 的 内 核 中 的 路 由 表 (又 称 为 转发 
表 )。 协议 驱动 程序 包括 IP、ICMP、TCP 和 UDP， 并 调用 适配器 驱动 程序 发 送 和 接收 分 组 。 另 一 个 守 
护 进程 ，inetd (超级 网 络 守护 进程 ) ， 调 用 各 种 用 于 网 络 相 关 服 务 的 程序 。 如 图 1-13 中 带 有 箭头 的 线 
条 所 示 ， 控 制 平 面 的 分 组 在 协议 驱动 程序 中 由 TCMP 或 者 更 往 上 由 RIP、OSPF、BGCP 等 守护 进程 处 理 。 
然而 ， 在 数据 平面 的 分 组 将 在 协议 驱动 程序 中 的 IP 层 被 转发 . 










用 户 空 间 


Routed (RIP) /gated 或 zebra 
(RIP. OSPF. BGP 等 ) 

















适配器 
驱动 程序 





驱动 程序 





控制 平面 从 
数据 平面 数据 平面 
图 1-13 Linux 系统 中 的 软件 体系 结构 : 路 由 器 
问 样 ， 图 1-14 中 显示 了 了 一 台 服 务 器 主机 机 咒 的 运行 。 各 种 应 用 协议 〈 例 如 ，Web 、 电 子 邮件 ) 服 
务 带 是 在 守护 程序 (如 Apache 、qdmail 、net-snmp 等 ) 中 实现 的 。 主 机 和 路 由 器 之 间 的 明显 区 别 在 于 ， 
在 主机 中 没有 进行 分 组 转发 ， 因 此 它 只 需要 一 个 链 路 接口 或 适配器 卡 。 对 于 该 主机 ， 大 多 数 分 组 是 来 
全 于 守护 程序 服务 融 的 数据 平面 分 组 :唯一 的 控制 平面 协议 可 能 是 用 于 差错 报告 的 ICMP 
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Linux 系统 中 的 软件 体系 结构 : 






图 1=14 服务 融 主 机 


1.4.3 Linux 内核 


已 经 将 协议 实体 定位 到 了 守护 进程 、 
部 情况 。 这 里 我 们 没有 打算 很 详细 地 介绍 它们 
图 1-15 显示 了 Linux 内 核 中 的 关键 部 件 . 
进程 管理 、 内 存 管理 、 文 件 系统 、 设 备 控制 、 


Linux 内 核 、 ee IC 后 ， 
相反 ， 我 们 上 


网 络 互联 





用 户 程序 和 应 用 












让 我们 来 查看 这 些 组 件 的 内 
是 浏览 一 下 每 个 组 件 的 主要 特点 

就 像 任何 类 UNIX 操作 系统 一 样 ， 它 主要 由 五 部 分 组 成 : 
这 里 我 们 不 打算 详细 说 明 每 个 组 件 的 用 途 
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文件 和 目录 。。 TTY 和 设备 接 入 
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结构 的 代 但 
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CPU RAM | 磁盘 和 光盘 | 品行 端口 
图 1-15 ”内核 组 件 
每 个 组 件 有 两 个 层次 : 独立 于 硬件 的 和 与 硬件 相关 的 。 





内 核 层 
内 核 部 件 


实现 的 功能 


软件 支持 


“硬件 控制 


与 重 件 相关 的 部 分 实际 上 就 是 用 于 磁盘 、 


控制 台 和 适配器 卡 的 驱动 程序 ， 或 依赖 于 CPU 体系 结构 的 代码 和 用 于 各 种 CPU 体系 结构 的 虚拟 内 存 管 
理 器 。 在 这 些 组 件 中 ， 网 络 互联 是 我 们 关注 的 焦点 。 附 录 B 介绍 了 Linux 内 核 源 代码 树 ， 尤 其 是 网 络 


互联 部 分 


1.4.4 ”客户 端 和 守护 进程 服务 器 

在 内 核 之 上-， 用 户 空 间 进 程 运 行 它们 的 用 户 空间 程序 ， 虽然 它们 偶尔 也 
内 核 以 便 接收 服务 ， 对 于 网 络 互联 服务 ， 套 接 字 API 为 用 户 空 
TCP 或 UDP 套 接 字 ) 进行 通信 提 
监听 接口 卡 《〈 通 过 数据 链 供应 商 的 接口 套 接 字 ) ， 
这 些 套 接 字 在 图 1-16 中 说 明 
问 唤 数 来 实现 这 个 系统 调用 。 


对 于 每 一 个 在 特定 套 接 字 API 的 系统 调用 ， 


会 调用 系统 调用 并 切换 到 


宇 问 进程 与 其 他 远程 用 户 空间 进程 (通过 
Ee 供 了 一 套 系 统 调用 ， 生 成 它 自己 的 全 分 组 (通过 原始 套 接 字 )， 


直接 


或 者 在 同一 台 机 器 与 内 核 通信 (通过 路 由 套 接 字 ) 。 
Linux 内 核 通 


过 一 套 内 核 空 
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路 由 ，TCPUDP | 
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er 全 














ET 


图 1-16 客户 端 与 守护 程序 服务 器 : 四 种 套 接 字 API 
这 些 套 接 字 被 用 在 不 同 的 应 用 程序 中 。 例 如 ，Apache 服务 器 与 许多 其 他 的 服务 器 一 起 使 用 TCP 套 
接 字 。zebra 路 由 守护 进程 使 用 路 由 套 接 字 更 新 在 内 核 中 的 转发 表 ， 分 别 使 用 UDP 套 接 字 、 原 始 套 接 
字 ， 以 及 TCP 套 接 字 分 别 发 送 和 接收 RIP、OSPF 和 BGP 协议 的 消息 ,在 图 1-10a 中 的 协议 栈 显 示 了 它 
们 选择 的 套 接 字 API。RIP、OSPF 和 BCP 分 别 运行 在 UDP、IP 和 TCP 之 上 。 


1.4.5 接口 驱动 程序 

设备 驱动 程序 是 一 组 由 内 核 调用 的 动态 链接 函数 。 关 键 是 要 知道 ， 驱 动 程序 操作 是 由 硬件 中 断 所 
触发 的 。 妆 设备 完成 了 一 次 VO 操作 或 检测 到 需要 处 理 的 事件 时 ， 便 产生 一 个 硬件 中 断 。 这 种 中 断 必 
须 由 了 解 此 设备 的 驱动 程序 处 理 ， 但 所 有 的 中 断 必 须 首先 由 内 核 来 处 理 ， 内 核 如 何 知 道 需要 选择 哪个 
驱动 程序 来 处 理 这 个 硬件 中 断 ” 设 备 的 驱动 程序 应 该 将 本 身 作为 一 个 中 断 服务 例 程 注 册 到 内 核 中 以 便 
处 理 特 定编 号 的 硬件 中 断 。 然 而 ， 部 分 驱动 程序 不 在 中 断 服务 例 程 中 。 这 一 部 分 被 内 核 调 用 但 不 由 中 
靳 处 理 ， 当 然 就 不 在 中 断 服务 例 程 中 。 图 1-17 显示 了 一 个 网 络 接口 卡 的 驱动 程序 。 分 组 接收 器 和 部 分 
的 分 组 发 送 带 被 接口 卡 注册 为 中 断 服务 程序 。 由 于 从 接口 卡 上 产生 了 硬件 中 断 ， 所 以 它们 就 被 内 核 所 
调用 。 部 分 发 射 机 没有 注册 到 中 断 服务 例 程 中 ， 因 为 只 有 当 内 核 有 分 组 要 传送 时 它们 才 被 调用 。 
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1 接口 卡 1 








图 1-17 中 断 驱 动 的 接口 驱动 程序 进 (in) 和 出 (out) 
除了 发 送 和 接收 分 组 外 ， 驱 动 程序 也 可 能 对 链 路 层 协议 做 某 些 处 理 ， 虽 然 部 分 链 路 层 协议 可 以 在 
接口 卡 上 的 ASIC 中 实现 ， 但 仍 有 一 些 协议 处 理 是 在 驱动 程序 中 实现 的 ， 这 些 将 在 第 3 章 中 学 习 
1.4.6 设备 控制 器 
如 1.4.5 节 中 所 述 ， 位 于 内 核 后 的 驱动 程序 处 理由 设备 所 产生 的 中 断 。 此 外 ， 驱 动 程序 也 需要 在 
初始 化 阶段 或 者 当 内 核 想 要 更 改 某 些 配 置 时 配置 设备 。 那么 驱动 程序 如 何 与 设备 通信 呢 ?7 事实 上 ,在 
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设备 内 部 有 一 个 设备 控制 器 ， 通 常 它 是 由 一 个 焦 成 电路 蔚 片 负责 与 双 动 程序 进行 通信 ， 探 制 天 提供 了 


和 供 驱 动 程序 进行 读 和 写 操 作 。 通 过 读 或 写 这 些 寄存 器 ， 驱 动 程序 可 以 发 出 命令 ， 或 者 从 设 
备 中 读 取 状态 。 此 外 ， 根 据 CPU 体系 结构 的 类 型 ， 有 凑 种 不 同 的 方法 来 访问 这 些 寄存 帮 。 有 些 CPU 提 


供 了 一 组 特殊 的 LO 命令， 例如，in 和 out 用 于 驱动 程序 与 设备 进行 通信 ， 同 时 其 些 CPU 预 留 了 一 系 
列 的 内 存 地 址 来 供 驱 动 程序 发 布 WO 命令 ， 如 内 存 访 问 ， 即 内 存 映 射 /0 

因此 设备 控制 器 才 是 设备 的 核心 ， 它 不 断 地 监视 设备 并 对 外 部 环境 或 驱动 程序 的 事件 立即 做 出 啊 
应 。 例 如， 当 网 络 适配器 中 的 控制 凑 检 测 到 驱动 程序 向 命令 寄存 需 写 入 了 一 条 发 送 命令 后 ， 就 会 运行 
MAC 协议 传输 分 组 。 当 出 现 冲突 时 ， 它 可 能 会 反复 尝试 重 发 。 与 此 同时 ， 它 监视 网 线 以 便 检 测 到 传人 
的 分 组 ， 并 将 它们 接收 到 适配器 内 存 中 ， 根 据 MAC 头 部 检查 其 正确 性 ， 外 后 县 台 一 个 中 断 以 便 请 求 相 
应 的 驱动 程序 将 分 组 移动 到 主机 内 存 中 。 


1.5 本 书 路 标 : 数据 包 的 生命 历程 

前 面 我 们 已 经 介绍 了 互联 网 体系 结构 形成 的 原因 以 及 如 何 实 现 开源 的 , 但 是 还 没有 进一步 的 详细 
介绍 。 在 后 续 章 节 中 ,我们 将 详细 介绍 为 什么 以 及 如 何在 协议 栈 的 每 一 层 中 实现 ， 并 解决 互联 网 上 的 
阶 个 笑 所 问题 : QoS 和 安全 性 。 在 介绍 这 些 章节 之 前 ， 最 好 先 看 一 看 分 组 如 何在 终端 或 中 间 设 备 里 存 
储 和 处 理 ， 这 是 非常 具有 局 发 性 和 娱乐 性 的 。 本 节 还 介绍 理解 本 书 涵盖 的 开源 实现 所 震 要 的 背景 知识 


1. 5. 1 数据 包 数 据 结构 : sk buff 


对 于 1.3 节 中 提 到 的 分 组 封装 ， 需 要 多 个 网 络 层 〈 或 模块 ) 的 合作 以 便 将 数据 封装 在 分 组 里 或 从 
分 组 中 取出 数据 。 为 了 避免 频繁 地 在 这 些 模 块 之 间 复 制 数据 ， 利 用 一 个 通用 的 数据 结构 来 存储 和 描述 
分 组 ， 这 样 每 个 模块 仅 通过 一 个 内 存 指针 就 可 以 传递 或 访问 分 组 。 在 Linux 中 ,将 像 这 样 的 数据 结构 
命名 为 sk_ buff， 在 文件 skbuff. nh 中 定义 。 

利用 sk_bufE 结构 存放 分 组 及 其 相关 信息 ， 例 如 ,长度 、 类 型 或 任何 随 着 网 络 模块 之 问 分 组 而 交 
换 的 数据 。 如 图 1-18 所 示 ， 该 结构 包括 许多 指针 变量 ， 这 些 指针 的 大 部 分 指向 实际 上 已 经 存储 了 分 组 
的 另 一 个 固定 大 小 的 内 存 空间 。 带 有 前 组 “+ ”的 字段 名 代表 基于 字段 头 部 的 偏 移 量 。 变 量 next 和 
prev 将 连接 前 面 和 下 一 个 sk_buff 结构 ， 以 便 使 节点 中 的 分 组 维持 在 一 个 双向 链表 里 。 变 量 dev 和 
sk 分 别 指 示 分 组 来 月 或 将 要 传输 到 的 网 络 设 备 和 套 接 字 。 在 分 组 中 存储 了 变量 transport header、 
network header 和 mac _header， 分 别 包含 4、3、2 层 的 头 部 位 置 的 相对 于 由 head 变量 指针 所 指 位 
置 的 侦 移 量 ， 


sk_buft 结 构 sk_buff 结 构 
EN 吉 十 -一 一 
| prev 1 1 prev 1 prev 1 
1 

dev | dev dev 1 
sk | sk sk | 
5 1 ， 1 
head 二 head ! 

data data 


+imac header 
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data 
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| 
+transport_header 1 ga 
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+tall 1 
+end \! 


+transport_header 











每 个 分 组 冉 定 大 小 的 内 存 空间 
图 1-18 sk _ buff 结构 的 双 链 表 以 及 在 sk_buff 中 的 一 些 重要 字段 


了 数据 结构 外 ， 还 为 网 络 模块 提供 了 一 组 例 程 ， 用 来 分 配 或 释放 sk_buff 并 修改 sk_buff 中 的 
数据 ， 当 从 网 络 设备 上 接收 分 组 时 ， 就 调用 例 程 alloc_skb () 来 为 分 组 分 配 一 个 缓冲 区 ， 如 图 1-18 所 
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示 ， 最 左边 的 sk_buff 最 初 因为 没有 分 组 存储 在 已 分 配 的 空间 中 ， 所 以 所 有 指向 分 组 空间 的 指针 有 具 有 
与 变量 头 部 相同 的 值 。 当 一 个 进入 分 组 到 达 分 配 的 空间 时 ， 这 可 能 看 起 来 像 图 1-18 中 间 部 分 的 sk_ 
buff， 将 调用 例 程 skb put () 将 尾 指针 tail 指向 来 尾 并 且 三 个 头 部 指针 指向 其 相应 的 位 置 。 下 一 
步 ， 当 协议 模块 每 次 删除 其 头 部 并 将 分 组 传送 到 上 层 协议 时 ， 都 会 调用 例 程 skb _ pull () 向 下 移动 
指针 aata。 在 上 层 协议 中 的 分 组 看 起 来 像 图 1-18 中 最 右边 的 sk_ buff。 最后， 处 理 完 一 个 数据 包 后 ， 
就 会 调用 例 程 kfree_skb () 返回 sk buff 所 占用 的 内 存 空间 。 

在 接 下 来 的 两 节 中 ， 我 们 在 一 台 Web 服务 顺和 一 台 网 关 (或 路 由 器 ) 中 将 数据 包 的 生命 历程 划分 
成 几 个 阶段 并 将 这 些 阶段 与 我 们 的 后 续 章 节 相关 联 ， 用 做 本 书 的 路 标 。 


1.5.2 在 Web 服务 器 中 数据 包 的 生命 历程 

图 1-19 画 出 了 Web 服务 器 中 常见 的 四 种 数据 包 流 。 一 般 来 说 ， 当 一 个 互联 网 客户 端 希望 从 一 台 
Web 服务 器 上 获取 一 张 网 页 时 ， 客 户 端 便 发 送出 一 个 分 组 指示 目的 地 Web 服务 器 和 所 请 求 的 网 页 。 接 
下 来 ， 分 组 经 过 一 系列 的 路 由 器 转发 最 后 到 达 Web 服务 器 。 分 组 被 服务 器 的 网 络 接口 卡 (NIC， 简 称 
网 卡 ) 收 到 后 ， 在 服务 器 中 的 行程 就 像 路径 4 所 绘制 的 那样 。 首 先 ，NIC 将 信号 解码 为 数据 ， 这 将 在 
第 2 章 中 介绍 。 网 卡 NIC 然后 提醒 驱动 程序 将 分 组 转移 到 驱动 程序 从 sk buff 池 中 分 配 的 内 存 空间 
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A: 带 有 用 户 请 求 的 进入 分 组 


C- 人 幅 入 到 A 中 的 对 请 求 的 Web 响 应 


全 性 。 该 表 是 netfilter (网 络 过 滤 融 ) 使 用 的 重要 结构 之 一 ， 
IP 模块 中 的 结构 和 操作 将 在 第 4 章 中 详细 介绍 ， 











加 口 口 








为 接收 获得 空间 





B; 对 分 组 A 的 TCP ACK 价 认 


D: 从 用 户 返 回 


的 对 于 分 组 C 的 TCP ACK 价 认 


图 1-19 在 Web 服务 器 中 数据 包 的 生命 历程 
一 旦 将 数据 包 存 储 到 sk buff 中 ， 适 配 需 驱动 程序 调用 并 将 一 个 指 回 分 组 的 sk_buff 指针 传递 给 
PP 模块 的 接收 函数 。 然 后 接收 函数 检查 数据 包 的 有 效 性 ， 并 将 数据 包 挂 接 到 IP 预 路 由 表 上 以 便 检查 安 





ch3 


骨 入 在 Linux 内 核 中 的 防火 墙 模块 。 
而 将 安全 操作 留 到 第 8 章 中 讲述 。 接 下 来 ， 数 据 包 被 


netfilter 推 入 到 TCP 模块 中 ， 第 5 章 将 介绍 如 何 从 在 sk_puff 中 的 分 组 中 提取 出 用 户 数 据 ， 进 行 


差错 控制 ， 并 把 它 传递 给 应 用 程序 一 这 里 就 是 Web 服务 器 。 由 于 Web 服务 器 是 用 户 空间 程序 ， 所 以 
数据 包 中 的 有 效 载 载 (也 就 是 数据 就 必须 从 内 核 内 存 复制 到 用 户 内 存 中 。 同 时 ， 根 据 收 到 数据 包 的 
头 部 ，TCP 模块 构建 ACK 分 组 ， 然 后 沿路 径 8 传输 。ACK 通过 TCP 模块 、IP 模块 、 适 配器 驱动 程序 、 
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网 卡 和 网 络 路 径 传输 ， 最 终 到 达 客 户 端 。 因 此， 客户 端 保证 将 对 所 需要 的 网 页 请 求 成 功 地 传送 到 Web 
服务 吉 上 。 

与 此 同时 ， 由 将 在 第 6 章 介 绍 的 Web 服务 器 处 理 在 其 套 接 字数 据 结 构 中 的 请 求 ， 这 是 从 TCP 模块 
中 复制 而 来 ， eee he 响应 通过 TCP 和 IP 模块 传输 ， 如 路 径 C 所 示 ， 当 
它 离 开 IP 模块 通过 互联 网 传输 时 ， 就 用 协议 头 部 封装 ， 并 且 有 可 能 拆 分 成 多 个 数据 包 。 最 后 ， 分 配给 数 
据 包 的 空间 将 释放 回 到 sk buff 池 中 。 稍 后 当 互 联网 客户 端 接 收 到 响应 时 ， 它 的 TCP 模块 会 发 回 一 个 
TCP ACK 给 Web 服务 器 的 TCP 模块 ，TCP ACK 通过 路 径 忆 确认 响应 已 成 功 交 付 到 互联 网 的 客户 端 上 


1. 5.3 数据 包 在 网 关中 的 生命 历程 


由 于 路 由 需 或 网 关 的 目标 就 是 在 也 联网 或 互联 网 与 企业 内 联网 (Intranet) 之 问 转发 或 过 滤 分 组 ， 
所 以 它 至 少 有 两 个 网 络 适 配器 ， 如 网 1-21 所 示 。 需 要 注意 的 是 ， 企 业内 联网 是 一 种 专用 网 络 ， 它 能 安 
全 地 与 员工 共享 组 织 的 任何 资源 。 此 外 ， 路 由 和 过 滤 模块 需要 分 别 确定 哪个 适配器 转发 数据 包 以 数据 
包 是 否 应 该 被 丢 齐 以 便 确保 企业 内 联网 的 安全 。 基 本 的 操作 ， 例 如 sk buff 处 理 、 差 错 控 制 及 模块 之 
间 的 交互 ， 与 前 述 服务 器 中 的 保持 一 样 。 路 由 器 或 网 关 ， 除 了 具有 一 些 路 由 和 安全 功能 的 守护 程序 外 ， 
通常 没有 TCP 或 上 层 的 模块 ,但 它 会 在 内 核 中 有 和 转发、 防火墙 、QoS 等 功能 ， 如 图 1-21 所 示 


性 能 问题 : 服务 器 中 从 套 接 字 到 驱动 程序 
图 1-20 中 说 明了 带 有 Intel 82566DM-2 以 太 网 适配器 和 2.0GHz CPU 的 PC 服务 器 的 分 组 处 理 时 间 

在 Linux 内 核 中 的 层 接 口 的 设置 函数 是 rdtscll] () (或 在 x86 机 器 上 的 汇编 指令 RDTSC)， 用 它 来 读 
取 TSC (时 间 鹤 计数 器 ， 以 CPU 喃 答 或 周期 为 单位 ) 来 计算 每 层 消耗 的 CPU 时 间 。 对 于 一 个 2. 0GHz 
的 CPU， 主 频 周 期 等 于 0. Sns。 重 复 测试 得 到 每 个 协议 层 的 CPU 平均 消耗 时 间 ， 其 中 不 计 显 著 地 比 平 
均 消 耗 CPU 时 间 大 很 多 的 测试 结果 ， 以 便 排除 上 下 文 切 换 和 中 断 处 理 的 影响 。 除 非特 别 注 明 ‘te 本 书 
中 的 所 有 性 能 问题 都 会 采用 这 种 方法 。 人 们 可 以 使 用 do gettimeofday () 和 printk (), 或 者 直 
接 使 用 附录 C 中 介绍 的 时 间 测 量 分 析 工 具 gprof/kernprof， 但 它们 只 精确 到 微 秒 级 






一 链 路 层 TX， 
传输 层 RX， 二 = 3 36lts( 10%%) 
7.Sus(21%) 
一 IP 层 TX， 
5.49us( 16°%0) 
IP 层 RX， 一 
S.36hs( 16%) 
链 路 层 KX， | 
3.88ps( 110%) 传输 层 TX， 总 的 时 间 : 34 18ks 


9.041s(206%) 
”图 1-20 ”服务 器 内 从 套 接 字 到 驱动 程序 消耗 的 CPU 时 间 

所 消耗 的 CPU 时 间 可 以 分 解 成 两 部 分 。 第 一 部 分 ，RX， et at 
收 ， 在 IP 层 和 传输 层 的 处 理 ， 并 提供 给 用 户 空间 所 测 得 的 时 间 。 三 部 分 ，TX， 描 述 的 是 内 核 空 间 中 
每 个 协议 层 处 理 来 自用 户 空 ee ett eet 总 的 时 间 为 34. 18hs， 这 包括 服务 
器 内 部 的 往返 时 间 但 不 包括 服务 器 内 部 请 求 和 响应 处 理 的 时 间 。 在 这 两 个 部 分 中 ， 传 输 层 都 占 很 大 比 
例 的 时 间 。 显 然 ， 它 消耗 了 大 量 的 时 间 在 用 户 和 内 核 空间 之 间 复 制 数据 ， 这里， 链 路 层 在 RX 和 TX 这 
两 部 分 消耗 的 时 间 都 是 最 少 的 。 然而， 我 们 必须 知道 ， 链 路 层 所 花费 的 时 间 在 很 大 程度 上 取决 于 设备 
驱动 程序 和 底层 硬件 的 性 能 。 在 1.6 节 中 我 们 将 看 到 ， 在 某 些 情况 下 ， 它 消耗 的 时 间 将 和 图 1-21 中 TP 
层 消耗 的 一 样 多 

一 旦 收 到 来 自 企 业内 联网 的 分 组 ， 如 图 1-21 布 侧 所 示 ， 网 关 就 可 以 先 验证 其 正确 性 ， 今 查 预 
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snort 的 日 志和 检测 入 侵 (第 8 章 ) 
经 过 zebra 的 路 由 (第 4 童 ) 
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NIC2 - 
ch2/eh3 集线器 
网 关 
图 1-21 分 组 在 网 关中 的 历程 

先 路 由 表 来 决定 是 否 将 分 组 转发 到 互联 网 上 。 例如， 如 果 在 网 关中 启用 透明 代理 功能 ， 然 后 将 发 送 一 
个 URL 请 求 分 组 ， 而 不 是 直接 发 送 到 实际 的 网 站 ， 那 么 可 能 会 重 定向 到 本 地 的 Web 代理 以 寻求 缓存 过 
的 页 面 ， 代 理 将 在 第 6 章 中 介绍 。 然后， 通过 检查 转发 链 ， 即 转发 表 或 路 由 表 看 看 是 否 包 括 远程 目的 
地 下 地 址 ， 做 出 转发 或 路 由 决策 ， 这 种 处 理 过 程 将 在 第 4 章 中 和 叙述。 由 于 安全 方面 的 考虑 和 IP 地 址 紧 
缺 ， 网 关 可 能 在 企业 内 联网 中 提供 让 所 有 主机 共享 一 个 公共 IP 地 址 的 网 络 地 址 翻译 (NAT) 功能 . 所 
谓 NAT 功能 ， 就 是 当 传 出 的 分 组 通过 三 次 路 由 模块 时 ， 其 源 地 址 可 能 被 蔡 换 ， 这 通常 称 为 耳 伪装 ， 这 
也 将 在 第 4 章 中 介绍 。 最 后 ， 分 组 可 能 会 被 附加 在 一 个 预先 路 由 模块 中 的 标签 以 便 区 分 在 得 出 链 路 上 
有 具有 带宽 预 留 的 分 组 服务 类 别 和 转发 优先 级 ， 这 由 将 在 第 7 童 中 介绍 的 拥塞 控制 模块 所 管理 。 

男 一 方面 ， 对 于 如 图 1-21 中 左边 所 示 的 来 自 互联 网 的 分 组 ， 由 于 它 会 被 检查 以 查看 它 是 否 包含 由 
互联 网 主机 传 来 的 恶意 代码 软件 ， 所 以 可 以 将 分 组 从 正常 的 转发 链 复制 到 有 日 志 分 析 和 检测 的 入 侵 检 
测 模块 。SNORT 是 一 个 软件 模块 。 它 将 在 第 8 章 中 与 其 他 几 个 提供 安全 功能 的 模块 一 起 介绍 。 如 果 将 
分 组 提交 给 一 个 本 地 进程 ， 即 第 4 章 中 所 介绍 的 路 由 守护 进程 ,那么 它 就 要 通过 和 输入 链 ， 然 后 再 到 达 
守护 进程 。 此 外 ， 守 护 进程 可 能 通过 输出 链 发 送 分 组 。 


性 能 问题 : 路 由 器 内 部 从 输入 端口 到 输出 端口 

与 服务 器 中 的 情况 不 同 ， 分 组 通常 并 不 需要 通过 路 由 器 或 网 关中 的 传输 层 。 如 图 1-21 所 示 ， 当 一 
个 分 组 到 达 网 络 适配器 时 ， 首 先 会 产生 一 个 中 断 。 在 链 路 层 的 设备 驱动 程序 触发 DMA 传输 ， 将 分 组 从 
适配器 缓冲 区 转移 到 内 核 内 存 。 然 后 将 分 组 传递 到 [P 层 ， 它 检查 路 由 表 并 将 分 组 转发 到 相应 的 外 出 适 
配器 上 。 再 次 ， 外 出 适配器 的 设备 驱动 程序 利用 DMA 传输 将 分 组 从 内 核 内 存 复制 到 适配器 缓冲 区 中 ， 
然后 要 求 适 配器 对 它 进行 传输 。 在 整个 过 程 中 ,没有 涉及 传输 层 及 以 上 层 的 内 容 。 然 而 ， 有 些 控制 平 
面 的 分 组 ， 可 能 会 上 升 到 传输 层 和 应 用 层 。 图 1-22 显示 了 在 路 由 器 上 处 理 分 组 所 花费 的 CPU 时 间 。 这 
里 的 DMA 时 间 就 是 一 个 例外 。 它 实际 上 是 逝去 的 时 间 ， 而 不 是 消耗 的 CPU 时 间 。 其 他 所 有 时 间 都 是 
消耗 的 CPU 时 间 。 基 于 PC 的 路 由 器 有 一 个 Intel PRO/100 以 太 网 适配器 和 一 个 1.1CHz 的 CPU。 

由 于 使 用 了 速度 更 低 的 CPU， 这 里 IP 层 接收 时 间 比 图 1-20 所 示 结 果 要 高 。 此 外 ,与 图 1-20 相 比 ， 
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DMA TX, DMA RX, 
0 95us(3%) ~ 0.94hs(3%0) 


链 路 层 TX， 
8 18HSs(2790) 


~ 链 路 层 RN， 
10.69hs(379%0) 


ip 层 TX， 


1 .24ns(5°%) 





IP 层 RX， 
六 总 时 间 : 29 JJ4us 


图 1-22 路 由 器 内 从 输入 到 输出 的 CPU 时 间 

RX 和 TX 的 时 间 增 加 都 比较 显著 ， 这 是 因为 Intel PROZ100 以 太 网 适配器 和 100MB 适配器 的 

ne 82566DM-2 以 太 网 适配器 和 千 兆 适配器 。 路 由 器 和 服务 器 之 间 另 一 个 明显 的 差异 就 
过 JP 层 ( 即 耳 层 TX) 传送 分 组 的 时 间 。 虽然 这 两 种 情况 在 IP 层 TX 中 Rod 但 sk 
buff pie 的 信息 是 不 同 的 。 在 一 台 路 由 器 中 ，sk buff 包含 准备 发 送 的 信息 ， 但 需要 更 改 的 源 
MAC 地 址 除外 ， 然而， 在 一 台 服 务 器 内 ，IP 层 需 要 首先 将 整个 以 太 网 二 寺 针 和 加 |， sk buff 中 ， 然 后 
才 把 它 发 送 到 链 路 层 ， 这 会 导致 服务 器 内 IP 层 TX 的 处 理 时 间 要 高 于 路 由 器 的 处 理 时 间 。 最 后 ， 虽 然 
使 用 了 速度 较 低 的 硬件 ， 但 全 部 分 组 的 处 理 时 间 ， 即 29. 14ps， 仍 然 低 于 图 1-20 所 示 的 由 高 端 硬件 服 
务 器 处 理 所 需 要 的 时 间 


行动 原则 : 互联 网 上 分 组 的 生命 历程 

检查 Web 服务 器 、 路 由 器 或 网 关中 分 组 的 生命 历程 的 确 很 有 趣 。 接 下 来 ， 让 我 们 叙述 分 组 在 客户 
端 产 生 后 ， 沾 着 多 个 路 由 器 的 路 由 ， 最 后 到 达 Web 服务 器 的 整个 过 程 。 第 6 章 描述 客户 端 程序 ， 首 先 
调用 “socket” 函数 让 内 核准 备 一 套套 接 字 数据 结构 ， 然 后 调用 “conrnect” 函 数 ， 请 求 内 核 TCP 
模块 通过 第 5 章 所 详细 描述 的 三 次 握手 来 与 Web 服务 器 中 的 TCP 模块 建立 连接 。 通 常 在 两 个 对 应 的 
TCP 模块 之 间 发 送 三 个 分 组 (SYN、SYN-ACK、ACK) 。 也 就 是 说 ， 在 发 送 HTTP 请 求 之 前 ， 已 经 交换 
过 三 个 分 组 。 它 们 遵从 与 在 客户 端 、 路 由 器 或 网 关 及 服务 器 的 HTTP 请 求 相 类 似 的 步骤 ， 但 它们 在 
TCP 模块 终止 而 不 会 上 升 到 客户 端 和 服务 器 程序 ， 

在 客户 端 和 服务 器 之 间 建 立 TCP 连接 后 ， 客 户 端 程序 在 用 户 内 存 空间 中 产生 HTTP 请 求 ， 并 调用 
“write” 函数 将 请 求 发 送 到 内 核 。 然 后 被 中 断 的 内 核 从 用 户 空 间 将 HTTP 请 求 复制 到 其 套 接 字数 据 结 
构 中 ， 包 括 sk buff， 以 便 存 储 HTTP 请 求 消息 。 在 客户 端 程序 中 的 “write” 函 数 在 该 点 返回 。 然 
后 内 核 TCP 模块 负责 其 余 工 作 ， 使 用 TCP 头 部 封装 HTTP 请 求 ， 在 将 它 传 递 到 IP 模块 后 封装 IP 头 部 ， 
然后 传递 给 适配器 驱动 程序 ， 最 后 传递 给 网 卡 进 行 链 路 层 封 装 。 这 个 分 组 会 穿越 一 系列 的 路 由 器 或 网 
关 ， 在 每 一 台 设 备 内 要 经 历 1.5.3 节 中 描述 过 的 过 即 在 每 一 台 路 由 器 或 网 关上 ， 数 据 包 在 网 卡 上 
的 接收 会 触发 将 信号 解码 成 数据 oan 章 ) ， 然 后 中 断 适 配器 驱动 程序 ( 详 见 第 3 章 ) 将 其 复制 
到 sk buff 并 把 它 传递 到 IP 模块 以 便 通 过 正常 的 转发 链 进行 转发 ( 详 见 第 4 章 )。 然 后 再 由 适配器 驱 
动 程 序 进 行 处 理 ， 完 毕 后 将 它 传递 到 另 一 块 网 卡 进行 编码 和 传输 ( 详 见 第 2 章 )。 

封装 过 的 HTTP 请 求 经 过 多 台 路 由 器 转发 后 ， 最 终 到 达 服 务 器 。 它 经 历 在 1.5.2 节 中 描述 的 过 
程 。 通 过 NIC 后 ， 被 适配器 驱动 程序 复制 到 sk buff 中 ， 经 过 IP 模块 的 检查 ， 再 由 客户 端 上 的 TCP 
模块 确认 ， 然 后 被 套 接 字 接 口 复制 到 用 户 内 存 中 ， 分 组 最 终 到 达 服 务 器 程序 。 分 组 存储 在 服务 器 程 
序 的 用 户 内 存 中 ， 在 服务 器 解析 HTTP 请 求 信 息 并 准备 响应 时 其 寿命 也 终止 了 。 然 后 服务 器 程序 重 
复 相同 的 过 程 将 HTTP 响应 发 送 回 到 客户 端 程序 。 响 应 也 触发 了 从 客户 端 TCP 模块 发 送 给 服务 器 的 
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TCP 确认 。 如 果 HTTP 会 话 结束 ， 通 常会 发 送 四 个 数据 包 (FIN、ACK、FIN 和 ACK) 以 便 终 止 TCP 
连接 ,至少 有 3 (TCP 连接 ) +1 (HTTP 请求 ) +1 (ACK 请 求 ) +1 (如 果 短 到 足以 容纳 到 一 个 分 
组 的 HTTP 响应 ) +1 (响应 的 ACK) +4 (TCP 连接 拆除 ) = 完成 一 次 HTTP 会 话 所 需 交 换 的 11 个 
数据 包 ， 


1.6 总 结 
我 们 从 构建 计算 机 网 络 必须 满足 的 三 个 需求 或 目标 ， 即 连通 性 、 可 扩展 性 、 资 源 共 至 作为 人 手 点 


然后 ， 阐 述 了 会 限制 我 们 探索 解决 方案 空间 的 性 能 、 操 作 和 互 操作 性 原则 或 约束 。 接 下 来 给 出 了 五 联 
网 解决 方案 和 基于 Linux 的 开源 实现 。 最 后 ， 我 们 通过 说 明 一 个 在 Web 服务 器 和 路 由 需 上 的 分 组 的 生 
命 历 程 来 说 明 本 书 的 整体 布局 ， 在 本 章 中 ， 我 们 介绍 了 许多 将 在 这 本 书 中 使 用 的 概念 和 术语 。 其 中 ， 
交换 、 路 由 、 无 状态 的 、 软 状态 、 尽 力 服 务 、 数 据 平面 和 控制 平面 是 需要 读者 重点 理解 的 

在 互联 网 演变 发 展 中 所 做 的 唯一 一 个 最 大 的 设计 决策 是 端 到 端的 。 它 将 差错 和 流量 控制 的 复杂 性 
推 给 了 终端 主机 ， 同 时 保持 核心 网 络 的 简洁 性 。 让 核心 如 此 简单 ， 以 便 它 能 运行 无 状态 的 路 由 ， 而 不 
是 有 状态 的 交换 并 仅 提 供 尽 最 大 努力 的 不 可 靠 的 IP 服务 。 在 主机 上 上 的 端 到 端 传输 层 运行 带 有 差错 和 流 
量 控制 的 可 靠 的 面向 连接 的 TCP， 或 者 运行 没有 太 多 控制 的 不 可 靠 的 无 连接 的 UDP。 正 是 优雅 的 TCP 
运行 流量 和 拥塞 控制 ， 以 保持 互联 网 的 健康 和 资源 共享 社区 的 公平 性 。 另 一 个 大 的 决策 是 将 互联 网 构 
建成 带 有 域 和 相 邻 IP 地 址 块 子 网 的 三 个 层次 。 它 通过 将 路 由 问题 分 为 域内 和 域 间 的 问题 从 而 解决 了 可 
扩展 性 问题 。 问 题 是 前 者 的 大 小 通常 小 于 256， 而 后 者 的 大 小 是 65 536。 两 者 的 大 小 是 可 探 的 ， 但 需要 
不 同 的 方案 进行 扩展 。 


演变 的 沙漏 

目前 ， 互 联网 在 网 络 层 上 有 着 唯一 的 下 技术 而 在 传输 层 上 则 有 多 种 技术 ， 但 是 它 是 建立 在 许多 类 
型 的 链 路 上 的 ， 同 时 提供 庞大 的 应 用 服务 。 这 个 沙漏 形 的 协议 栈 仍然 处 在 不 断 地 创新 发 展 之 中 。 中 间 
层 虽 然 仍 然 相 当 稳定 ， 但 面临 着 从 IPv4 过 渡 到 IPv6 以 及 限制 不 “礼貌 的 ”UDP 流量 所 带 来 的 压力 ， 
我 们 将 分 别 在 第 4 章 和 第 5 章 中 介绍 。 同 时 ， 它 的 无 状态 也 一 直 遭 到 不 断 的 挑 成 ， 就 像 我 们 前 面 已 经 
讲述 的 那样 。 较 低层 已 经 收敛 成 唯一 一 种 主流 技术 或 占领 市 场 的 几 种 技术 ， 尽 管 最 后 一 公里 的 无 线 市 
场 仍然 是 一 个 悬而未决 的 战场 。 我 们 将 在 第 2 章 和 第 3 童 中 学 习 到 更 多 内 容 。 在 最 上 层 ， 传统 的 客户 
端 / 服 务 器 应 用 持续 缓慢 演变 ， 但 是 新 的 对 等 〈(P2P) 应 用 发 展 迅 速 ， 参 见 第 6 章 中 的 介绍 。 

在 20 世纪 90 年 代 后 期 和 21 世纪 初 ， 人 们 希望 重新 设计 互联 网 提供 服务 质量 ( QoS) 以 便 确 保 延 
述 、 存 吐 量 或 丢失 率 等 。 但 所 有 的 提案 都 要 求 在 核心 网 络 中 加 入 某 些 有 状态 性 ， 而 这 与 原 有 的 无 状态 
性 冲突 ， 从 而 导致 了 最 终 的 失败 。 目 前 ， 许 多 QoS 技术 仪 适 用 于 链 路 层 ， 而 不 适用 于 端 到 端的 层 ， 对 
此 第 7 章 将 有 更 多 的 描述 。 除 了 无 线 和 P2P 外 ， 安 全 性 可 能 是 最 吸 待 解决 的 紧迫 问题 。 从 早期 关注 控 
制 “ 谁 可 以 访问 什么 内 容 ” 和 保护 “在 公共 互联 网 上 的 私有 数据 "， 目 前 注意 力 已 经 转移 到 保护 系统 
不 受到 入 侵 、 病 毒 和 垃圾 邮件 破坏 。 第 8 章 将 对 它们 进行 全 面 的 介绍 。 


常见 陷阱 

传输 延迟 与 传播 延迟 

这 两 者 明显 不 同 。 但 令 人 惊讶 的 是 ， 如 果 我 们 不 加 以 比较 ， 有 些 读 者 可 能 在 初次 接触 时 就 不 能 区 
分 两 者 。 传 输 延 迟 表 示 设 备 把 一 个 分 组 完全 推 入 到 网 络 链 路 所 需要 的 总 时 间 。 延 迟 取 决 于 分 组 的 长 度 
(分 组 大 小 ) 和 链 路 带宽 。 例 如， 对 于 一 个 长 为 250 字 节 的 分 组 ， 即 2000 位 ， 在 一 台 具 有 1Cbps 链 路 
的 主机 内 的 传输 时 间 就 是 2000 (位 ) A10”( 位 / 秒 ) =2hs。 

传播 延迟 表示 一 个 分 组 通过 链 路 所 需要 的 总 时 间 。 它 取决 于 信和 号 传输 的 速度 和 距离 。 由 于 分 组 是 
通过 电子 传输 的 ， 其 速度 仅 是 光速 的 一 个 分 数 ， 并 且 仅 受 传输 介质 的 影响 。 例 如， 对 于 通过 全 长 为 
1000km 的 洲际 海底 光缆 传输 的 分 组 ， 其 传播 延迟 是 1000km/ (2 x 10 "mysec) =5ms 
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吞吐 量 与 利用 率 


和 前述 同 样 的 问题 也 发 生 在 这 上 下 个 术语 上 。 和 存 吐 量 是 用 来 描述 在 单位 时 间 (通常 是 1s) 内 通过 设 
备 传输 或 处 理 的 数据 ， 通 常 以 位 或 字 节 为 单位 。 例 如 ,我 们 测量 到 在 Im 内 通过 外 出 链 路 的 数据 量 为 
75 x10" 字 节 ， 那么 我 们 可 以 计算 出 平均 存 吐 量 为 75 x10”( 字 节 ) /60 ( 秒 ) =1.25 x10"Bps 也 就 
是 说 ， 平 均 每 秒 有 1. 25 x 10 字 节 数据 通过 这 条 链 路 传递 . 存 吐 量 可 以 通过 系统 容量 标准 化 ， 使 其 转 
变 成 0 和 1 之 间 的 值 

为 一 方面 ， 利 几率 意味 着 链 路 上 使 用 带宽 的 百分比 或 者 设备 蚂 忙 时 间 的 百分比 。 按 照 虐 面 同样 的 
例子 并 假设 链 路 带宽 是 100 x 10"bps， 则 链 路 利用 率 是 1. 25 x 10"Bps/100 x 10"bps = 10% 

第 2、3、4、7 层 交 换 机 

我 们 经 稼 听 到 第 2 ~7 层 交 换 机 ， 但 为 什么 需要 这 么 多 种 交换 机 呢 7 交换 机 的 基本 工作 原理 是 依靠 
分 组 上 的 标签 来 选择 发 送 端口 。 这 种 诛 理 可 用 来 构建 按照 不 同 协议 来 获取 标签 的 不 同 层 的 交换 机 。 例 
如 ， 第 2 层 交 换 机 可 以 通过 观察 来 自 某 个 端口 传人 的 分 组 的 源 MAC 地 址 来 学 习 并 记忆 适配器 在 哪里 ， 
然后 再 将 分 组 交换 到 具有 目的 地 MAC 地 址 的 端口 上。 这 样 ，MAC 地 址 可 用 做 第 2 层 交 换 机 的 标签 。 

同样 ，IP 地 址 、 流 id、URL 可 以 分 别 用 做 第 3 层 、 第 4 层 和 第 7 层 交 换 机 的 标签 。 第 3 层 的 IP 交换 机 ， 
实际 上 就 是 MPLS 技术 ， 将 标签 简化 成 一 个 数字 并 要 求 上 游 交换 机 用 这 个 标签 来 标记 将 来 到 达 的 分 组 以 便 能 
够 快速 索引 到 标记 表 。 这 样 一 台 IP 交换 机 运行 速度 比 传统 的 IP 路 由 器 更 快 。 第 4 层 交 换 机 使 用 五 元 组 流 id 
( 源 全 地址， 目的 地 四 地 址 ， 源 端口 号 ,目的 地 端口 号 ， 协议 id) 作为 标签 ， 并 将 属于 同一 流 的 分 组 交换 
到 间 一 输出 端口 。 这 种 持续 的 交换 对 于 用 户 将 全 部 事务 交易 切换 到 同一 台 服 务 器 的 电子 商务 应 用 来 说 非常 重 
要 .第 7 层 网 络 交换 机 更 进一步 使 用 应 用 程序 的 头 部 信息 ， 如 URL 或 Web 网 机 cookie 作为 持续 好 spot 
sap 电子 商务 交易 在 许多 连接 或 流 中 持续 更 长 的 时 间 。 有 趣 的 是 ， 没 有 第 5 层 和 第 6 层 交换 机 ， 这 

是 因为 人 们 由 于 7 层 OSI 模型 的 缘故 喜欢 称 应 用 层 为 第 7 层 而 不 是 第 5 层 

基带 与 宽带 

有 些 读 者 会 混淆 ， te 宽 就 是 宽带 ， 具 有 较 小 的 带宽 就 是 基带 。 事实 上 于， 这 两 个 闻 汇 几 
平 没有 传达 任何 带宽 数量 的 含意 。 在 基带 传输 中 ， 数 据 的 数字 信和 号 直接 通过 链 路 传播 . 它 是 原始 的 方 
形 传输 信号 。 很 容易 发 送 或 接收 这 样 的 信号 。 然 而， 一 条 链 路 每 次 只 能 传输 一 个 这 样 的 信和 号。 这 种 方 
形 的 信号 很 容易 衰减 ， 所 以 不 能 维持 一 段 很 远 的 距离 。 因 此 基带 主要 用 于 局 域 网 中 

在 宽带 传输 中 ， 数 据 的 数字 信号 与 模拟 载波 信号 混合 调整 成 特殊 的 频率 。 这 样 一 来 ， 不 仅 可 以 使 
产生 的 信号 传播 很 远 的 距离 而 且 可 以 在 接收 费 恢 复数 字 信 号 ， 种族 世 可 以 通过 把 得 小 级 子 信号 号 与 不 同 
频率 的 模拟 载波 混合 起 来 用 来 传输 多 个 并 行 的 数字 信和 号。 然而 ， 这 就 需要 一 个 更 复杂 的 收发 器 . 因此 
宽带 主要 用 于 广域网 。 

调制 解 调 器 与 编 解 码 器 

有 些 读 者 可 能 会 认为 可 以 把 编 解码 器 逆向 用 做 调制 解 调 器 或 者 反之 亦 然 ,但 事实 并 非 如 此 。 调 制 
解 调 需 是 一 种 将 数字 数据 转换 成 模拟 信号 或 反之 亦 然 的 传输 设备 。 前 者 称 为 调制 ， 而 后 考 则 是 解 调 。 
其 目的 是 加 强 远 距离 传输 时 抵制 骂 声 的 能 力 。 最 普遍 的 应 用 例子 就 是 家 用 PC 机 通过 ADSL 调制 解 调 器 
或 电缆 调制 解 调 器 接 人 互联 网 。 

编 解码 器 信号 或 反之 亦 然 的 设备 。 其 目的 是 充分 利用 数字 信和 号 的 纠 
错 能 力 ， 最 常见 的 例 ， 当 你 在 使 用 手机 打 电 话 时 ， 你 的 模拟 语音 首先 在 手机 上 被 数字 化 ， 然 后 再 
调制 成 模拟 信 汪 侦 于 运 耻 吉村 输 到 基站 或 更 这 的 地 亨 。 数字 信号 可 以 在 每 个 传输 跳 很 容易 地 被 恢复 ， 
因此 ， 在 接收 端 解 调 后 ， 转 换 成 原始 的 模拟 语音 . 


进一步 阅读 
其 他 参考 书 


在 scholar google. com 上 搜索 能 够 找到 的 有 关 计算 机 网 络 的 六 本 重要 教科 书 。 下 面 列 出 这 些 教科 
书 ， 并 根据 它们 被 引用 的 次 数 排序 。 
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® A.S.Tanenhbaum, Computer Networks, 4th edition, Prentice Hall, 2002. 

® D. Bertsekas and R. Gallager, Data Networks, 2nd edition, Prentice Hall, 1992. 

e W.Stallings, Data and Computer Communications, 8th edition, Prentice Hall, 2006. 

@ JF Kurose and K. W. Ross, Computer Networking: A Top-Down Approach, 3rd edition, Addison- 

Wesley ，2003. 
® |. [Peterson and B.S. Davie, Computer Networks: A System Approach, 4th edition, Elsevier, 2007. 
® D.E.Comer, Internetworking with TCP/IP, Volume I: Principles, Protocols, and Arehitecture, 4th 
edition, Prentice Hall. 2000. 

Tanenbaum 的 书 有 点 面面俱到 ， 是 一 本 像 讲 故事 一 样 的 传统 书籍 。 它 更 多 地 讲述 如 何 而 韭 为 什么 
Bertsekas 和 Callager 的 书 仪 肴 眼 于 性 能 建 模 与 分 析 ， 可 用 于 开设 第 二 门 课程 。Stallings 的 书 是 按 百 科 全 
书 式 的 平 铺 结构 组 织 的 ， 更 加 注重 较 低层 。 Kurose 和 Ross 的 书 采用 自 项 向 下 的 顺序 介绍 分 层 协 议 ， 更 
加 注重 上 层 协 议 的 处 理 。Peterson 和 Davie 的 书 讨论 更 多 系统 实现 的 问题 ， 但 大 多 都 没有 可 运行 的 例 
手 。Comer 的 书 则 仪 专注 于 TCPXIP 协议 栈 ， 而 将 代码 例子 放 在 了 第 二 卷 。 


互联 网 体系 结构 
F 面 阅读 资料 中 的 前 三 本 讨论 了 推动 互联 网 体系 结构 设计 的 一 般 理 念 。 如 果 读 者 有 兴趣 追溯 这 些 
设计 ， 它 们 将 会 是 很 好 的 参考 书 ， 有 关 以 太 网 的 文章 可 以 作为 以 太 网 起 源 的 经 由 参考 资料 。 尽 管 以 太 
网 不 是 互联 网 体系 结构 的 一 部 分 ， 但 我 们 仍然 把 它 包 括 在 内 ， 因 为 它 是 支撑 互联 网 体系 结构 主要 的 有 
线 基 础 设施 。 接 下 来 的 是 有 关 建 立 互联 网 体系 结构 基础 的 三 个 关键 RFC 文档 。 下 一 个 RFC 文件 是 有 关 
为 保证 服务 质量 而 重新 设计 互联 网 氏 达 十 年 的 努力 。 最 后 两 部 重要 著作 是 为 了 维护 互联 网 健康 的 有 关 
拥塞 控制 方面 的 次 入 研究 ， 互 联网 工程 任务 组 (IETF) 网 站 包含 有 所 有 定义 互联 网 的 RFC 文件 以 及 许 
多 其 他 资源 
e J.Saltzer, D. Reed, and D. Clark, “End-to-End Arguments in System Design,”ACM Transactions on 
Computer Systems，Vol 2，No. 4，pp. 277-288, Nov. 1984. 
© D.Clak, “The Design Philosophy of the DARPA Internet Protocols,” ACM SIGCOMM, pp. 106- 
114, Aug. 1988. 
® 下. Hafner and M. Lyon, Where Wizards Stay up Late: The Origins of the Internet, Simon & 
Schuster, 1996. 
e R.M.Metcalfe and D. R. Boggs, “Ethernet: Distributed Packet Switching for Local Computer Networks ,” 
Communications of the ACM, Vol. 19, Issue 7, pp. 395-404, July 1976. 
® 小 Postel, “Internet Protocol,” RFC 791, Sept. 1981. 
® J. Postel, “Transmission Control Protocol,” RFC 793, Sept. 1981. 
® M.Allman, V. Paxson, W. Stevens, “ TCP Congestion Control,” RFC 2581, Apr. 1999. 
® R.Braden, D. Clark, S. Shenker, * Integrated Services in the Internet Architecture: An Overview ，” 
RFC 1633, June 1994. 
® V. Jacobson and M.J. Karels, “Congestion Avoidance and Control,” ACM Computer Communication Re- 
view: Proceedings of the SIGCOMM, Aug. 1988. 
® S. Floyd and K. Fall, “Promoting the Use of End-to-End Congestion Control in the Intermnet,” JEEE/ 
ACM Transactions on Networking, Vol.7, Issue 4, Aug. 1999. 


e Internet Engineering Task Force, www. ietf org. 


开源 的 发 展 

下面 文献 中 的 前 两 篇 分 别 是 第 一 个 开源 项 目 和 第 一 篇 有 关 开 源 的 文章 。 第 三 篇 是 第 一 篇 开源 的 文章 扩 
展 成 的 书 。 接 下 来 的 两 篇 文献 是 开源 发 展 的 概述 ， 首 先是 有 关 技 术 方面 的 ， 其 次 是 有 关 如 何 组 织 项 目的 努 
妃 。FreshMeat. net 是 一 个 中 心 枢 纽 (hub) 可 用 来 从 巨大 的 开源 软件 包 库 中 下 载 ， 而 SourceForge. net 则 


到 
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容纳 了 许多 开源 项 目 ， 即 使 硬件 也 可 能 是 开源 的 。OpenCores. org 是 开源 硬件 组 件 中 心 (hub) 

e R.Stallman, The GNU project, http: /A/www. gnu. org. 

® FE.S.Raymond, “The Cathedral and the Bazaar,” May 1997, http: /A/www. tuxedo. org/ ~ esr/writ- 
ings/ cathedral-bazaar/ cathedral-bazaar. 

e FS Raymond, The Cathedral and the Bazaar: Musings on Linux and Open Source by an Accidental 
Revolutionary, OF Reilly & Associates, Jan. 2001. 

® M.W. Wuand Y.D.Lin, “Open Source Software Development: an Overview,” IEEE Computer, June 
2001. 

e 下 . R. Lakhani and E. Von Hippel, “ How Open Source Software Works: “Free”User-to-User Assis- 
tance,” Research Policy, Vol.32, [ssue 6, pp. 923-943, June 2003. 

© Freshmeat, freshmeat. net. 

® SourceForge, sourceforge. net. 


e OpenCores, opencores. org. 


性 能 建 模 与 分 析 
下 面 列 出 资料 中 的 前 两 篇 是 Agner Krarup Erlang 在 1909 年 和 1917 年 以 丹麦 文书 写 的 有 关 排 队 论 
的 第 一 部 作品 ， 而 第 三 篇 是 1961 年 出 版 的 称 为 Litle 结论 的 经 典 论文 。Kleinrock 在 1975 年 和 1976 
年 出 版 发 表 的 书 是 第 一 部 运用 排队 理论 建立 计算 机 和 通信 系统 模型 的 经 典 作 品 。Leon-Garcia 的 书 
是 第 一 部 建立 在 排队 论 建 模 基础 上 生成 随机 过 程 的 教程 。 最 后 三 篇 是 有 关 性 能 分 析 的 额外 、 新 增 
作品 : 
® A.K.Erlang, “The Theory of Probabilities and Telephone Conversations,” Nyt Tidsskrifi for Matematik 
B, Vol.20, 1909. 
® A.K.Erlang, “Solutions of Some Problems in the Theory of Probabilities of Significance in Automatic 
Telephone Exchanges,™ Elektrotkeknikeren, Vol. 13, 1917. 
® J.D.C.Little, “A Proof of the Queueing Formula L = AW,” Operations Research, Vol.9, pp. 383- 
387, 1961. 
® L.Kleinrock, Queueing Systems, Volume 1: Theory, John Wiley and Sons, 1975. 
® LKlemnrock, Queueing Systems, Volume 2: Applications, John Wiley and Sons, 1976. 
© A.Leon-Garcia, Probability, Statistics, and Random Processes for Elecirical Engineering, 3rd edition, 
Prentice Hall ，2008. 
e R.Jan, The Art of Computer Systems Performance Analysis: Techniques for Experimental Design, Meas- 
urement, Simulation and Modeling, John Wiley and Sons, 1991. 
® T.G. Robertazzi, Computer Networks and Systems: Queueing Theory and Performance Evaluation, 3rd 
edition, Springer-Verlag ，2000. 
® LLipsky, Queuing Theory: A Linear Algebraic Approach, 2nd edition, Springer, 2008. 


常见 问题 解答 

1. 互联 网 如 何 扩展 成 数 以 亿 计 的 主机 ? (详细 说 明 用 于 组 织 主 机 的 结构 和 层次 ， 并 计算 每 层 的 实体 数量 ,) 

答 : 将 互联 网 分 成 三 层 结构 ， 其 中 256 台 主 机 可 以 组 合成 一 个 子 网 ， 而 256 个 子 网 可 以 组 合成 一 个 

域 ， 即 有 65 536 个 子 网 域 总 共有 40 亿 台 主机 

路 由 与 交换 对 比 : 哪个 是 有 状态 或 无 状态 的 ， 哪 个 是 面向 连接 或 无 连接 的 ， 哪 个 是 匹配 或 索引 的 ? 

(将 这 些 功能 与 路 由 和 交换 联系 起 来 ,) 

答 : 路 由 : 无 状态 的 、 无 连接 的 、 匹 配 式 的 。 交换: 有 状态 的 、 面 向 连接 的 、 索 引 式 的 。 

3. 哪些 因素 可 能 增加 或 减少 互联 网 中 的 延迟 ? (有 了 哪些 因素 可 能 分 别 会 增加 或 减少 排队 、 传 输 、 处 理 
和 传播 延 交 ? ) 


ft 
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答 : 排队 : 流量 负载 、 网 络 带宽 或 CPU 容量 。 传 给 : 网 络 带宽 。 处 理 ，CPU 功能 。 传 播 : 链 路 /路 
径 的 长 度 。 


4. 我 们 从 Little 结论 和 带宽 延迟 乘积 可 以 知道 什么 ” (提示 : 前 者 是 一 个 节点 ， 而 后 者 是 一 个 链 路 或 
路 径 ,) 
答 : Litle 结论 : 在 一 个 节点 中 ， 分 组 的 平均 数量 是 平均 分 组 到 达 率 和 平均 延迟 /延迟 的 乘积 ， 即 黑 


匣子 的 平均 数 等 于 平均 速率 乘 以 平均 延迟 。 任 宽 延 迟 乘 积 : 在 传输 过 程 中 一 条 链 路 /路 径 上 的 突 发 
位 的 最 大 数量 。 
5. 端 到 端 观 点 是 何必 各 加 避 联 的 ? 
答 : 如 果 问 题 不 能 在 下 层 〈 或 路 由 髓 二 ) 得 到 完全 人 解决， 那么 就 在 上 层 (或 终端 主机 上 ) 解决 。 这 
eesti er 
6. 根据 端 到 端的 观点 ， 我 们 应 该 把 差错 控制 放 在 互联 网 上 的 哪 一 层 ? 但 是 我 们 为 什么 还 要 把 它 放 到 许 
多 层 ， 包 括 链 路 层 、 了 下 层 和 传输 层 上 实现 呢 ? 

答 : 在 端 到 端的 传输 层 | 上， 因为 链 路 和 节点 的 错误 都 可 以 检测 并 纠正 ， 即 链 路 层 只 能 处 理 链 路 的 错 
误 但 不 能 处 理 节 点 的 错误 。 但 为 了 更 有 效率 ， 也 将 差错 控制 放 在 链 路 层 和 下 层 以 便 及 早 处 理 错误 。 
7. 何 种 类 型 的 机 制 应 该 分 别 放 和 人 控制 平面 和 数据 平面 ?〈 注 明 它 们 的 分 组 类 型 、 目 的 、 处 理 时 间 的 粒 

过 和 例子 操作 ) 

答 : 控制 平面 : 控制 分 组 ， 保 持 数据 平面 的 正常 操作 ， 通 党 在 数秒 内 守成， 如 路 由 。 

数据 平面 : 数据 分 组 ， 正 确 地 传输 分 组 ， 通 常 在 数 微 秒 内 转发 。 
8. 在 路 由 融 中 ， 哪 些 是 标准 的 组 件 及 哪些 是 依赖 于 实现 的 组 件 ?( 指定 组 件 的 类 型 和 例子 。) 

答 : 标准 : 影响 路 由 带 之 间 互 操作 的 协议 消息 格式 和 算法 ， 路 由 协议 ， 如 RIP。 

依赖 于 实现 : 不 影响 互 操作 性 的 内 部 数据 结构 和 算法 ， 路 由 表 及 其 查找 算法 。 
9，Linux 发 布 版 本 中 都 包括 什么 内 容 ? (指出 你 将 在 发 布 版 本 中 找到 的 文件 类 型 以 及 它们 是 如 何 组 
织 的 。) 
答 : aa 文件、 二 进 制 对 象 文件 、 图 像 文 件 、 内 核 和 应 用 程序 包 的 
pe 组 织 形式 ; 放 入 目录 中 。 

} 别 在 什么 情况 下 将 网 络 设备 机 制 实现 到 ASTIC 、 驱 动 程序 、 内 核 和 守护 程序 中 ? 〈 指 出 它们 的 指导 
原则 和 具体 例子 。) 
答 : ASIC: 通常 用 于 PHYAMAC， 有 时 用 于 IPZTCPZUDP 以 及 上 上 层 的 加 速 器 ，Ethernet/ WLAN PHY/ 
MAC 和 crypto 加 密 的 加 速 器 。 驱 动 程序 : 通常 用 于 MAC 和 正之 癌 的 接口 ， 有 时 也 用 于 某 些 链 路 
妇 ， 以 太 网 /无 线 局 域 网 的 驱动 程序 和 PPP 驱动 程序 。 内 核 :通常 为 IPATCPAUDP 层 、NAT 和 TCP/ 
IP 防火 墙 。 守护 程 序 : 应 用 客户 端 、 服 务 器 或 对 等 ， Web 客户 端 、 服 务 关 和 代理 。 


练习 
动手 练习 


1. 访问 freshmeat. net 、sourceforge. net 、opencores. org， ， 具有 的 内 容 进 行 概括 总 结 和 比较 。 

2. 安装 最 新 的 Linux 发 行 版 本 ， 并 总 结 : 1) 它 的 安装 过 程 ; 2) Linux 发 行 版 内 部 包含 的 内 容 。 

3. 首先 阅读 附录 B， 然 后 再 查找 源 文件 所 在 的 src/， eben 目录 或 其 他 目录 下 的 程序 ， 具体 根据 正 
在 使 用 的 Linux 发 行 版 本 而 定 。 对 目录 中 的 内 容 进行 总 结 和 分 类 。 

4. 按照 附录 C 的 指导 使 用 ggb 和 kgdb 调试 应 用 程序 和 Linux 内 核 。 另 外 ， 分 别 使 用 gprof 和 kprof 
为 应 用 程序 和 Linux 内 核 编写 配置 轮廓 。 试 写 一 篇 报告 有 关 你 是 如 何 做 的 以 及 在 调试 和 配置 轮廓 编 
写 中 所 遇 到 的 问题 。 

5. 尝试 附录 D 中 描述 的 nost 、ARP、ping、traceroute、tcpdump 等 工具 探索 并 概括 总 结 网 络 
环境 品 o 

6 跟踪 Linux 内 核 代码 ， 找 到 
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a 在 图 1-19 中 ， 哪 个 函数 调用 alloc_skb () 分 别 为 请 求 和 响应 分 配 sk_ bufE 
b. 在 图 1-19 中 ， 哪 个 函数 调用 kfree_skb () 分 别 为 请 求 和 响应 释放 sk_puff 
c. 在 图 1:21 中 ， 哪 个 函数 调用 alloc skb 分 配 sk _buff 
d 在 图 121 中 ， 哪 个 函数 调用 kfree_skb 释放 sk _buff 
e. 你 是 如 何 动 态 地 或 静态 地 跟踪 上 述 操作 的 ， 
7. 找到 一 个 具有 “标准 ”(STD) 状态 的 RFC 文件 
a. 阅读 并 总 结 协议 是 如 何在 RFC 中 描述 的 。 
b. 在 Linux 源 树 中 或 Linux 发 布 中 搜索 某 个 源 代码 实现 。 描 述 该 协议 是 如 何在 找到 的 代码 中 实现 的 
c 如 果 你 准备 从 头 开 发 一 个 开源 实现 ， 你 将 如 何 从 RFC 实现 自己 的 开发 目标 ? 


书面 练习 


,假设 一 条 有 具有 40Gbps 带宽 的 5000 英里 的 洲际 链 路 。 假 设 传播 速度 为 2x10” 米 / 秒 。 
a. 位 在 时 间 和 长 度 上 的 宽度 分 别 是 多 少 ? 

b. 链 路 最 多 可 以 包含 多 少 位 ? 

c. 一 个 1500 字 节 的 分 组 需要 多 长 的 传输 时 间 ? 

d. 通过 这 条 链 路 的 传播 时 间 是 多 少 ? 

2. 一 个 分 组 流 在 万 联网 中 沿 着 具有 10 条 链 路 和 节点 的 路 径 传播 。 每 条 链 路 长 100km， 拥 有 45Mbps 容量 ， 

传播 速度 为 2 x10” 米 / 秒 ， 假设 没有 流量 控制 ， 路 径 上 也 没有 其 他 流量 ， 源 以 线 速 度 发 送 分 组 ， 

a 在 每 条 链 路 上 将 包含 多 少 位 ? 

b， 如果 通过 每 个 节点 的 平均 延迟 为 5 毫秒 ， 则 在 每 个 节点 平均 包含 多 少 位 ? 

c 在 路 径 上 平均 包含 多 少 位 ? 

假设 有 一 条 1Gbps 的 链 路 ， 县 有 指数 级 增长 的 分 组 到 达 间 隔 时 间 和 服务 时 间 。 我 们 想 运 用 排队 论 和 Little 

结论 来 计算 平均 等 待 时 间 和 平均 占用 时 间 

a 如 果 平均 到 达 速 率 是 500Mbps， 则 平均 延迟 、 排 队 时 间 、 占 用 时 间 各 是 多 少 ? 

b， 如果 链 路 带宽 和 平均 到 达 速 率 分 别 增加 幅度 为 10CGbps 和 5GCbps， 则 平均 延迟 、 排 队 时 间 和 占用 时 间 

分 别 是 多 少 ? 

4. 如果 30% 分 组 的 大 小 为 64 字 节 ，50% 分 组 的 大 小 1500 字 节 ， 其 余 的 大 小 均匀 分 布 在 64 ~ 1500 字 节 ， 则 
在 一 台 拥 有 12 条 10Gbps 链 路 的 路 由 器 上 上 每 秒 汇聚 分 组 的 最 大 数量 (PPS) 是 多 少 ? 

5. 假设 每 分 钟 有 300 万 个 新 的 电话 呼叫 到 达 全 球 范围 的 电话 交换 系统 ， 平 均 每 次 通话 时 间 5 分 钟 ， 并 且 每 
个 呼叫 用 户 和 被 叫 用 户 之 间 平 均 有 6 跳 〈( 即 6 条 链 路 和 6 个 节点 ) 。 那 么 为 了 支持 全 球 交 换 连 接 平均 震 
要 占用 多 少 内 存 表 项 ? 

6. 在 一 个 拥有 4 294 967 296 个 节点 的 集群 中 ， 如 果 仍 然 要 保持 如 图 1-1 中 所 示 的 三 个 层次 ， 但 仍 和 希望 有 相 
同 数量 的 组 成 员 、 组 和 组 上 的 超 组 、 超 组 ， 以 及 “ 超 超 组 ” 层 ， 那 么 近似 的 数量 是 多 少 ? 

7. 如 果 由 于 IP 地 址 短缺 ,我 们 将 图 1-1 中 的 组 和 超 组 一 分 为 二 ， 每 组 最 多 有 128 个 成 员 ， 每 个 超 组 最 
多 有 128 个 组 ， 则 最 多 允许 多 少 这 样 的 超 组 ? 

8. 比较 数据 通信 和 电信 (语音 ) 通信 的 需求 和 原则 之 间 的 差异 。 对 最 重要 的 三 个 差异 进行 命名 并 加 以 
解释 

9. 为 什么 互联 网 被 设计 成 路 由 式 而 不 是 交换 式 网 络 ?” 如 果 将 它 设计 成 一 个 交换 式 的 网 络 ， 则 需要 改变 
哪些 层次 和 机 制 ? 

10. 比较 路 由 分 组 和 交换 分 组 的 开销 。 为 什么 路 由 时 间 复 杂 度 高 于 交换 ， 而 交换 的 空间 复杂 度 比 路 由 
分 组 高 ? 

11. 如 果 要 在 路 由 带 上 支持 新 的 路 由 协议 ,需要 将 哪些 内 容 定 义 为 标准 、 哪 些 内 容 应 该 留 作 与 实现 相 
关 的 设计 ? 

12. 内 容 网 络 互联 要 求 互 联网 本 身 成 为 更 加 有 具有 应 用 感知 的 ， 即 要 求知 道 谁 访问 什么 数据 并 与 谁 交流 
通话 ， 但 这 会 破坏 原 有 的 端 到 端 观点 。 需 要 采取 什么 样 的 改变 来 支持 内 容 网 络 互联 ? 
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. ATM 和 MPLS 没有 无 状态 的 核心 网 络 。 它 们 保持 了 什么 状态 ? 它们 保持 这 些 状态 的 方式 上 有 什么 主 
此 区 别 ? 


.ATM 是 一 种 用 于 数据 通信 的 可 选 技术 ,为 什么 当 它 与 IP 互 操 作 承 载 传输 人 P 分 组 时 具有 很 高 的 


开销 ? 


. MPLS 是 IP 交换 的 一 种 标准 ， 旨 在 交换 多 数 但 路 由 少数 的 下 分 组 。 将 其 实施 的 障碍 是 什么 ”如何 


减少 这 一 障碍 的 影响 ? 


. oT 我 们 可 能 将 协议 实体 放 入 内 核 或 守护 程序 中 。 这 里 则 需要 考虑 什么 问题 ? 也 


大 是 说 ， 分 别 在 什么 时 候 将 协议 实体 放 入 内 核 和 守护 程序 ? 


: 在 图 1 13 中 ， 我 们 为 什么 将 路 由 的 任务 (业务) 放 人 用 户 空 间 而 同时 将 路 由 表 碍 找 放 入 内 核 中 呢 ? 


为 什么 不 能 将 两 者 都 放 入 用 户 空 间或 内 核 空间 中 呢 ? 


当 误 者 为 网 第 通 配 禹 编写 开动 种 序 时 ， 应 该 将 哪些 部 分 写 入 到 中 断 服务 例 程 中 ? 哪 部 分 不 应 该 


写 人 入 六 
当 读 者 实现 数据 链 路 协议 时 ， 分 别 应 该 将 哪些 部 分 实现 到 人 硬件 和 驱动 程序 中 ? 


20. 我 们 需要 了 解 便 件 如 何 与 驱动 程序 一 同 工 作 。 


a 网 络 适 配 带 的 驱动 程序 与 网 络 适 配 带 控制 带 之 间 的 接口 是 什么 ? 
b. alae eno 控制 器 如 何 报告 它 已 经 完成 工作 ? 
c. 当 分 组 到 达 网 络 适配器 时 ， 控 制 器 如 何 将 它 报告 给 驱动 程序 ? 


. Linux、apache、sendmail、GNU C library、bind、freeS/wan 和 snort 是 流行 的 开源 软件 


包 。 在 互联 网 上 搜索 它们 的 许可 证 模式 ， 并 概述 这 些许 可 证 横 式 之 间 的 差异 。 


2， 当 用 户 在 浏览 需 中 输入 一 个 URL 时 ， 人 分 别 简 要 描述 在 主机 、 中 间 


路 由 器 以 及 相关 服务 器 上 会 发 生 什 么 。 书写 答 案 之 前 为 了 使 你 的 答案 更 为 准确 ， 请 参阅 1.5.2 节 ， 
但 不 一 定 要 求 运行 在 Linux 系统 上 。 
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物理 层 (PHY) 是 计算 机 网 络 中 OSIT 模型 或 TCPZIP 模型 中 的 最 低层 ， 它 是 唯一 与 传输 介质 相互 作 
用 的 层 。 传输 介质 是 一 种 可 以 将 称 为 信号 的 能 量 波 从 发 送 问 向 接收 问 传 播 的 物质 实体 。 而且,， 也 可 以 
将 自由 空间 认为 是 一 种 电磁 波 的 传输 介质 ,传输 介质 只 能 传输 信号， 市 不 是 数据 ,但 源 于 (或 来 自 ) 
链 路 层 的 信息 属于 数字 数据 ， 因 此， 物理 层 必 须 将 数字 数据 转换 成 适当 的 信号 波形 。 在 现代 数 宇通 信 
中 ， 这 种 转换 是 一 种 分 成 两 步 的 过 程 。 首 先 对 数字 数据 进行 信息 编码 以 便于 进行 数据 盯 缩 和 保护 ， 人 然 
后 将 编码 过 的 数据 调制 成 适 于 在 通信 介质 中 传输 的 信号 . 应当 说 明 的 是 ,在 模拟 通信 中 只 使 用 后 一 种 
调制 过 程 

为 了 能 够 实现 高 速 传输 ， 物 理 层 需 要 根据 介质 的 属性 来 决定 编码 科 调 制 技术 。 一 般 来 讲 有 线 介质 
更 可 靠 ， 因 此 物理 层 可 以 完全 着 眼 于 提高 其 存 吐 量 和 利用 率 。 相 反 , 无 线 介 质 是 不 可 靠 的 并 曝露 在 公 
众 之 下 ， 央 此 物理 层 寡 此 能 应 付 品 声 干 扰 并 防止 数据 被 损坏 。 除 了 雷 要 提高 看 吐 量 和 利用 率 外 ， 还 震 
要 有 了 能够 处 理 充满 了 噪声 、 干 扰 , 甚至 多 径 误 落 介 质 的 技术 

在 一 种 介质 [可 以 有 多 个 信道 共存 。 发 射 融 和 接收 费 之 间 的 信道 虐 可 以 是 物理 的 也 可 以 是 逻辑 的 
在 有 线 网 络 中 ， 物 理 信 道 是 一 条 通过 电缆 的 传输 路 径 ; 而 在 无 线 网 络 中 ， 物 理 信 道 就 是 电磁 波 频 谱 的 
频率 波段 ”小 辑 信 道 是 传输 介质 经 不 同 的 划分 方法 划分 成 的 子 信道 ， 如 时 分 、 频 分 、 码 分 和 空 分 。 因 
此 ， 需 要 利用 另 一 种 称 为 多 路 复 用 的 技术 以 便 更 好 地 利用 介质 

本 章 将 介绍 基本 的 转换 技术 。 在 2.1 节 中 ,我 们 首先 要 介绍 模拟 数据 /信号 和 数字 数据 /信号 之 间 
的 差异 。 接 下 来 说 明 发 送 和 接收 流 、 通 过 编码 和 调制 进行 数据 /信和 号 转换 、 通 过 多 路 复 用 以 便 更 好 地 利 
用 ， 此 处 还 介绍 了 损害 信号 的 因素 .2. 2 节 将 传输 介质 分 成 两 类 有线 的 和 无 线 的 。 在 2.3 节 中 介绍 了 
各 种 线路 编码 (或 称 为 数字 基带 调制 ) 技术 ,以便 达到 更 好 地 发 送 方 和 接收 方 时 钟 同 步 。 介绍 了 不 归 
霉 (CNRZ) 、 曼 彻 斯 特 、 交 替 反 转 (AMI) 、 多 级 传输 ( MLT-3)、4B/5B 等 经 典 技术 。 还 介绍 了 8B/ 
10B 编码 的 开源 实现 

2.4 玫 介 绍 了 各 种 数字 调制 技术 ， 人 包括 幅 移 键 控 (ASK) 、 频 移 键 控 (FSK) 、 相 移 键 控 (PSK ) 、 
正 交 调幅 (QAM)。 调 制 是 将 数字 位 流通 过 模拟 带 通 信道 传播 ， 模拟 载波 信号 由 数字 位 流 调制 。 换 句 
话说 ， 就 是 把 编码 过 的 数据 转换 成 带 通信 号 ， 即 一 段 真 正 (或 复杂 ) 的 连续 时 间 波 形 ， 以 便于 数字 传 
输 . 由 此 产生 的 信号 是 一 个 以 载波 频率 为 中 心 的 包含 在 有 限 常 宽 范 围 内 的 真正 的 连续 时 间 波 形 。 接 下 
来 我 们 介绍 基本 的 多 路 复 用 技术 ,包括 时 分 多 路 复 用 (TDM) 、 频 分 多 路 复 用 (FDM) 和 波 分 多 路 复 
用 (WDM) 技术 

更 高 级 的 主题 留 色 2.5 节 讨 论 ， 包 括 扩 频 、 公 分 多 址 ( CDMA) 和 正 交 频 分 多 址 (OFDM ) 、 多 输 
入 和 多 得 出 MIMO)。 扩 频 的 目的 包括 抵抗 、 多 路 访问 和 隐私 保护 。 这 些 都 通过 将 源 数据 位 传播 天 上 
有 较 高 码 片 速率 和 较 低 能 耗 的 芯片 ( 码 片 ) 序列 中 得 以 实现 。 直 序 扩 频 (DSSS) 、 跳 频 扩 频 (FHSS) 
和 CDMA 就 是 三 种 例子 。OFDM 是 一 种 利用 多 个 载波 的 数字 通信 技术 。MIMO 通信 是 一 个 在 发 射 器 和 
接收 颖 部 使 用 了 多 个 天 线 的 新 的 传播 媒介 MIMO 通过 引入 空间 复 用 和 空间 分 集 可 以 提高 通信 的 可 靠 
性 和 在 吐 量 。 最 后 ， 我 们 讨论 了 采用 OFDM 的 IEEE 802. 11a 发 射 机 的 开源 实现 ， 


2. 1 一 般 性 问题 

物理 层 通 过 传输 介质 发 送信 号 和 接收 信和 号。 为 了 生成 一 个 可 以 通过 具有 信道 高 条 吐 量 和 利用 率 的 
特殊 介质 进行 发 送 和 接收 的 信和 号， 必须 解 决 几 个 方面 问题 。 首 先 ， 从 链 路 层 来 的 数据 需要 转换 成 数字 
信号 或 模拟 信号 以 便 进行 数字 传输 。 我 们 首先 把 模拟 数据 /信号 和 数字 数据 /信号 区 分 开 来 。 其 次 ， 发 
送 和 接收 流量 在 物理 层 经 历 多 次 转换 。 这 两 种 流量 需要 加 以 说 明 。 再 次 ， 需 要 编码 和 调制 。 为 了 进 一 
步 提高 信道 的 利用 率 ， 我 们 需要 多 路 复 用 和 多 路 访问 等 技术 以便 使 多 个 用 户 能 够 访问 相同 的 信道 、 
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这 是 我 们 要 解决 的 第 四 个 问题 ， 最 后 ,为 了 对 信道 损害 做 出 响应 ， 特 别 是 在 无 线 介质 中 ， 就 必须 实现 
一 些 补偿 措施 


2. 1. 1 ”数据 和 信号: ”模拟 的 或 数字 的 

数据 和 信号 既 可 以 是 模拟 的 也 可 以 是 数字 的 .在 计算 机 中 ， 数 据 通常 是 数字 的 ， 而 模拟 数据 ( 如 
语音 和 视频 ) 通常 需要 转换 成 数字 值 以 便于 存储 和 通信 。 这 是 因为 以 模拟 信号 形式 表示 的 模拟 数据 很 
容易 受到 噪声 的 影响 。 数 字数 据 和 和 信号 可 以 通过 和 再 生 中 继 需 再 生 并 通过 纠 错 码 保护 免 受 侵害 ， 所 以 它 
pe i 有 殉 强 的 抵抗 力 。 因 此 、 模 拟 数据 通常 转换 为 位 流 形 式 的 数字 数据 。 然 后 将 它们 转换 为 用 于 

专 输 的 信和 号。 因此 ， 在 计算 机 网 络 中 使 用 数字 数据 表示 模拟 信号 源 ， 如 图 像 、 声 音 、 音 频 和 视频 ， 

在 计算 机 网 络 中 ， 位 流 或 消息 ， 通 过 传输 介质 从 一 台 计 算 机 经 网 络 连 接 到 另 一 台 计 算 机 。 传 输 介 
质 沿 着 一 条 物理 路 径 传递 信号 能 量 ， 它 们 既 可 以 在 电缆 中 传输 电信 号 ,在 光纤 中 传输 光 信 和 号 或 存在 自 
由 空间 中 传递 电磁 信和 号。 通常， 模拟 信号 比 数字 信和 号 传播 得 更 远 更 持久 。 物理 层 起 着 将 数字 数据 转换 
成 数字 信号 或 模拟 信号 以 适用 于 特定 传输 介质 的 作用 。 在 此 我 们 说 明了 数据 和 信号 . 模拟 和 数字 之 问 
的 差异 

模拟 数据 和 信号 


模拟 信号 是 一 种 包含 由 模拟 源 生成 的 模拟 信息 的 连续 时 间 信 号 ， 如 声音 或 图 像 。 它 常常 具有 连续 
的 值 。 模 拟 通信 的 一 个 例子 就 是 发 声 一 听觉 通信 系统 。 ee 多 化 成 数字 数据 用 
于 存储 和 通信 ， 


数字 数据 和 信号 
在 计算 机 中 数字 数据 取 离 散 值 ， 如 0 和 1。 它们 可 以 转换 为 数字 信号， 能 够 直接 传输 一 段 短 距离 。 
另外 ， 也 可 以 调制 载波 〈 即 周期 性 的 模拟 信号 ) ， 使 调制 过 的 信和 号 能 够 传输 较 远 的 距离 。 大 多 数 教科 
将 调制 信号 当做 数字 信和 号， 因为 它们 将 数字 调制 方式 当做 一 种 数字 传输 或 数据 传输 形式 ， 即 使 调制 
是 一 种 数 模 换 形 式 时 也 是 ,如 此 。 通过 在 离散 时 间 采 样 并 量化 成 离散 值 ， 模 拟 信 号 可 以 转换 为 数字 信 
号 换 句 话说 ， 经 采样 的 模拟 信号 变 成 了 离散 时 间 信 号 ， 它 可 以 进一步 量化 成 数字 信和 号。 如 果 一 个 波 
形 只 有 两 个 电 平 来 表示 二进制 状态 “0” 和 “1”, 它 就 是 一 种 二 进 制 的 数字 信和 号， 代表 一 个 位 流 。 这 
里 ， 我们 更 正式 地 定义 几 个 术语 
采样 是 一 种 在 离散 时 间 从 连续 时 间 信 号 (或 者 在 图 像 处 理 中 的 连续 空间 ) 中 提取 样本 的 过 程 
每 个 采样 值 在 采样 周期 内 保持 恒定 不 变 。 A 一 个 连续 时 间 信 号 x(1)， 其 中 1 是 定义 在 连续 时 间 
实 线 上 的 一 个 变量 ， 可 采样 成 离散 时 间 信 和 号， 在 采样 时 刻 的 样本 值 可 以 由 数字 序列 或 一 个 离散 时 间 
了 呆 数 xL nj 表示 ， 其 中 是 一 不 整数 集 的 值 用 ] 来 表示 离散 时 间 的 离散 变量 虹 释 情 避 区 _ 神 局 有 过 上 
值 的 离散 时 间 信 号 
量化 是 将 一 段 值 范围 映射 到 一 个 离散 有 限 数字 或 值 的 集合 的 过 程 . 这 样 的 映射 过 程 通常 是 通过 使 
用 模 数 转换 器 (ADC) 进行 的 。 一 个 量化 的 信号 可 以 在 连续 的 时 间 上 ， 但 具有 离散 值 。 hip 会 引 
入 量化 误差 或 量化 噪声 . 
重建 是 从 采样 的 离散 时 间 信 号 恢复 为 原来 的 连续 时 间 信 号 的 插值 过 程 。 为 了 从 一 个 取样 序列 中 完美 
地 重建 原始 信和 号， 采样 率 具 需要 等 于 或 大 于 原始 信号 中 最 高 频率 的 两 倍 。 这 种 充分 条 件 是 奈 奎 斯 特 - 香 
农 采 样 定 理 的 一 个 结论 


行动 原则 : 奈 奎 斯 特定 理 与 香农 定理 
一 条 通信 信道 是 介 于 发 送 端 和 接收 端 之 间 的 一 条 连接 ， 其 中 信息 是 通过 电缆 、 光 纤 或 无 线 电 频率 
频谱 作为 传输 介质 的 一 条 路 径 传输 的 ， 信 道 可 以 是 无 噪声 的 也 可 以 是 有 噪声 的 。 如 果 认 为 信道 是 无 品 
声 的 ， 其 最 大 数据 传输 速率 可 由 奈 奎 斯 特定 理 来 决定 ; 如 果 是 有 噪声 的 ， 最 大 数据 速率 则 由 香农 定理 
准确 地 重 构 信 号 所 需 的 采样 率 是 多 少 ? 在 无 噪声 的 信道 上 传输 信息 时 ， 最 大 数据 传输 速率 有 多 大 ” 
这 些 问题 ， 由 哈里 . 奈 奎 斯 特 (Harry Nyquist) 于 1924 年 提出 ， 它 们 后 来 由 奈 奎 斯 特 采 样 定理 及 推导 


一 让- 
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得 出 的 最 大 数据 传输 速率 所 求解 ， 作 为 奈 奎 斯 特 采 样 定 理 的 推断 ， 要 想 唯一 地 、 不 走样 地 重 构 一 个 信 
号 ,系统 必 须 至 少 以 信号 带宽 的 两 倍 进行 采样 。 例 如 ， 如 果 有 限 的 带宽 信号 具有 的 最 高 频率 为 /,， 采 
样 染 /就 必须 大 于 2 x_f,,。 奈 在 斯 特定 理 表 明 ， 具 有 带宽 为 B( Hz) 的 无 噪声 信道 的 最 大 数据 率 为 2 x 
BlogsL, L 是 表示 符号 的 信号 编码 方法 使 用 的 状态 数 。 例 如， 如 果 应 用 一 条 3kHz 的 无 噪声 电话 线 和 1 
位 信号 编码 (两 个 状态 )， 那 勾当 声 音 通 过 电话 线 传送 时 可 能 达到 的 最 大 的 数据 速率 为 多 少 ? 根据 奈 
奢 斯 特定 理 ， 最 大 数据 速率 为 2x3kxlog;2kbps， 或 6kbps。 

实际 上 ， 信 道 不 可 能 是 无 噪声 的 ， 而 是 具有 许多 不 想 要 的 吧 声 ， 如 热 噪 声 、 互 调 噪声 、 串 扰 噪 声 、 
脉冲 噪声 。 这 就 需要 有 一 个 能 够 计算 在 噪声 信道 下 最 大 数据 速率 的 新 定理 。1948 年 ， 克 劳 德 ， 埃 尔 伍 
德 . 香农 为 在 噪声 信道 下 计算 最 大 数据 速率 提出 了 “一 种 通信 数学 理论 。、 和 “噪声 环境 下 的 通信 ”， 
香农 定理 指出 ， 如 果 信号 在 信 唆 比 (SNR) 为 SSN、 带 宽 为 B(Hz) 的 有 骂 声 信道 上 传输 ， 那 么 最 大 数 
据 速 府 是 如 xlog,(1+S/N)。 香农 定 理 也 称 为 香农 极限 ， 此 极限 与 编码 方法 无 关 ， 但 它 与 信 骂 比 有 关 。 
而 且 ， 考 虑 3kHz 有 噪声 的 电话 线 ， 如 果 信 骂 比 为 30 分 贝 (dB) 时 ， 最 大 数据 速率 为 多 少 ? 根据 香农 
极限 ， 最 大 数据 速率 是 3k xlog;(1+1000)kbps 或 29.9kbps。 


周期 性 和 非 周 期 性 信号 

如 前 所 述 ， 一 个 信号 既 可 以 是 模拟 的 也 可 以 是 数字 的 。 如 果 它 是 连续 时 间 和 连续 值 ， 那 么 它 就 是 
一 个 模拟 信号 ， 如 果 它 是 离散 时 间 和 离散 值 ， 那 么 它 就 是 一 种 数字 信和 号。 除了 这 种 区 分 外 ， 信 号 也 可 
以 分 为 周期 性 的 或 非 周期 性 的 ， 周 期 性 信和 号 是 一 种 经 过 一 定时 间 重 复 本 身 的 ， 而 非 周 期 性 信号 则 不 会 
重复 ， 异 拟 和 数字 信号 既 可 以 是 周期 性 的 也 可 以 是 非 周期 性 的 ， 例 如， 一 个 人 的 语音 声音 信号 是 非 周 
期 性 的 模拟 信号 ， 数 字 时 钟 信号 是 一 种 周期 性 的 数字 信号 。 除 了 信号 的 时 域 描述 外 ， 还 有 一 种 基于 传 
里 叶 理 论 的 频 域 描述 方法 。 如 果 信 号 是 由 可 能 的 无 限 个 离散 频率 构成 的 线 谱 ， 那 么 它 就 是 周期 性 的 。 
线 谱 蚌 一 种 能 量 集中 在 特定 波长 的 频谱 。 另 一 方面 ， 如 果 信号 具有 可 能 无 限 的 支持 的 连续 频谱 ， 那 么 
它 是 非 周期 性 的 。 此 外 ， 如 果 信 号 县 有 有 限 的 支持 ,那么 就 说 它 是 频带 有 限 的 。 就 说 它 刚好 是 fi ~ 
的 频率 。 图 2-1 显示 了 模拟 信号 的 频谱 。 图 2- 1a 使 用 离散 频率 100kHz 和 400kHz 来 表示 具有 不 同 振幅 
的 两 个 周期 性 模拟 信号 。 在 图 2-1b 中 ， 显 示 了 非 周期 性 有 限 带宽 的 模拟 信号 。 


=IOOKHz .A=400KHz 周期 性 模拟 信号 非 周 期 性 模拟 信号 
| 














既 A 
三 上 
100 k 400k 频率 : 
a) 两 个 周期 性 模拟 信号 频谱 b) 一 个 非 周期 性 模拟 信号 频谱 


图 2-1 模拟 信号 频谱 

图 2-2 描述 了 数字 信号 的 频谱 。 根 据 傅 里 时 理论 ， 周 期 性 的 数字 信和 号 具有 一 种 通过 正弦 (sinc) 频 
说 乘 以 由 离 茹 频率 脉冲 序列 组 成 的 周期 性 线 谱 而 获得 的 线 谱 。 非 周 期 性 的 数字 信号 具有 连续 频谱 ， 是 
通过 正弦 频谱 乘 以 从 零 到 无 限 范 于 的 周期 性 连续 频谱 而 获得 的 。 傅 里 叶 理 论 还 告诉 大 家 ， 数 字 信和 号 五 
以 由 加 权 的 不 同 频率 、 振 幅 和 相位 的 正 纱 曲线 组 合 、 正 弦 和 余弦 、 信 和 号 表示 。 将 图 2-1 和 图 2-2 结合 
起 来 ， 我 们 就 可 以 得 出 如 下 结论 : 

。 如 果 信 号 是 周期 性 的 ， 那 么 它 的 频谱 是 离散 的 ;如果 信和 号 是 非 周期 性 的 ， 那么 它 的 频谱 是 连 

续 的 

。 如 果 信 号 是 模拟 的 ， 那 么 它 的 频谱 是 非 周 期 性 ; 如 果 信 号 是 数字 的 ,那么 它 乘 以 正弦 函数 后 ， 

它 的 频谱 是 周期 性 的 。 

在 数字 通信 中 ， 经 常用 到 周期 性 模拟 信号 或 非 周期 性 数字 信号 ， 因 为 周期 性 模拟 信和 号 需要 较 少 的 
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带宽 ， 非 周期 性 数字 信号 可 以 表示 数字 数据 的 各 种 值 ， 如 图 2-2a 和 图 2-2b 所 示 。 在 本 章 的 其 余部 分 ， 
若 没有 明确 的 说 明 ， 数字 信号 遍 史 着 志 示 数据 流 的 中风 各 性 并 寺 信息， 时 乔 入 号 起 提 央 关 入 业 芝 信息， 
载波 是 百 虽 周 期 ， 注 模拟 信 导 i 而 调 制 信号 条 表示 非 周 期 性 模拟 信号 ) 




















人 
1 频率 =/ kHz 周期 性 数字 信和 轩 办 攻 周 期 性 数字 信号 
蜂 二 攻 二 生计 和 1 
琶 通 而 醒 是 而 是 更 砷 而 他 证 入 本 是 遇 时 间 时 间 
4 
频率 脉冲 系 刚 | 
和 a 
天 2 3f 4 频率 0 频率 
a) 周期 性 数字 信号 频谱 b) 非 周 期 性 数字 信号 频谱 


2.1.2 发 送 和 接收 流 

在 解释 了 模拟 和 数字 信和 号 的 性 能 并 区 分 了 周期 性 和 非 周 期 性 信号 的 各 个 方面 后 ， 我 们 接着 在 
图 2-3 中 说 明 通 过 物理 层 简化 的 发 送 和 接收 流 。 来自 一 个 信息 源 的 消息 符号 首先 被 信 源 编码 扑 缩 ， 然 
后 通过 信道 编码 将 它 编码 为 信道 符号 。 符 号 表示 一 定 长 度 的 二 进 制 元 组 ,消息 符号 是 来 自信 源 的 一 序 
列 数据 流 。 信道 符号 表示 已 经 被 信 源 编码 和 信道 编码 处 理 过 的 数据 流 ， 并 且 可 能 和 从 其 他 源 来 的 符号 
复 用 . 然后 合并 后 的 信道 符号 通过 线路 编码 〈 或 数字 基带 调制 ) 处 理 成 基带 波形 。 接 下 来 基带 信号 可 
以 直接 通过 有 线 网 络 ( 如 电缆 ) 传送 给 接收 带 , 或 者 它 也 可 以 进一步 与 载波 一 起 通过 数字 调制 并 经 过 
无 线 网 络 传输 。 调 制 信号 是 一 种 带 通 波形 ， 一 种 来 自 数字 调制 的 审 通 信号 ,用 于 数字 传输 。( 如 果 调 制 
信号 传输 数字 数据 而 不 是 模拟 数据 ， TE 种 数字 信号 ， 而 不 是 模拟 信号 。) 最 后 ， 在 
人 (仍然 是 一 个 基带 信号 ) 转换 成 发 送 的 信号 ， 即 RR ( 射频) 信 

， 发射 的 信号 ， 与 干扰 和 噪声 一 起 通过 信 ] 道 发 送出 去 。 


来 自 其 他 信 源 
信息 符号 信道 符号 人 基带 波形 带 通 波形 干扰 和 噪声 









P- 一 人 信 一 -一 数字 信号 一 ~ 


信号 接收 器 | 解 复 用 | 线路 解码 上 解 调 


到 其 他 目的 地 
图 2-3 数字 通信 系统 的 发 送 和 接收 流 
多 路 复 用 将 资源 分 成 多 个 信道 ， 以 便 共 享 总 容量 大 于 单独 一 个 数据 流 需求 的 传输 设施 来 提高 信道 
的 利用 率 。 它 结合 了 其 他 数据 的 数字 流 或 通 带 信号 的 数字 信号 。 因 此 多 路 复 用 可 以 发 生 在 不 同 的 地 方 
多 路 复 用 可 以 按照 频率 、 时 间 、 编 码 或 空间 通过 频 分 多 路 复 用 ( FDM) 、 时 分 多 路 复 用 (TDM) 、 码 分 
多 路 复 用 (CDM) 、 空 分 多 路 复 用 (SDM) 创建 逻辑 信道 。 多 路 复 用 方案 的 不 同 在 于 它们 如 何 将 物理 
信道 划分 成 多 个 信道 或 逻辑 信道 。FDM 技术 是 一 种 模拟 技术 ,而 TDM 和 CDM 是 数字 技术 。 因此， 
TDM 或 CDM 的 位 置 可 以 放 在 图 2-3 中 所 示 的 多 路 复 用 / 解 复 用 模块 ， 因 此 ，TDM 和 CDM 的 位 置 困 位 
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于 多 路 复 用 / 解 复 用 的 模块 ， 如 图 2-3 所 示 ，FDM 是 通过 合并 其 他 信号 并 共享 信道 后 经 过 通 带 调制 产生 
而 成 。 通 信 系 统 可 以 通过 TDM 建立 多 个 信道 ， ip er ed rr ee 
( 如 载波 侦 听 多 路 访问 (CSMA) ) 来 访问 。 需 要 注意 的 是 多 路 复 用 方案 是 在 物理 层 上 提供 的 ， 而 多 路 
访问 技术 是 在 链 路 层 决定 的 。 


基带 或 宽带 

图 2-3 所 示 的 基带 波形 是 可 以 在 一 条 基 宙 信道 上 直接 传输 而 不 震 间 转换 成 模拟 信号 的 数字 信号， 
这 称 为 基带 传输 ， 它 绕 过 了 通常 调制 由 果 信道 是 宽带 信道， 数字 信和 号 就 需要 使 用 与 简单 的 线路 编码 
调制 不 同 的 调制 方式 。 宽 带 是 指 在 比 数字 信号 频率 高 很 多 的 频带 上 的 数据 传输 ， 这 样 就 可 以 使 多 个 数 
据 流 能 够 同时 发 送 ， 多 个 信号 也 可 以 共享 相同 的 介质 . 

如 前 所 述 ， 非 周期 性 数字 信号 具有 一 种 由 正弦 明 数 乘 以 一 个 周期 性 连续 频谱 而 得 色 的 频谱 。 频 谱 


的 振幅 下 降 ， 在 高 频率 处 接近 于 零 ， 因 此 ， 在 高 频率 的 频谱 可 以 忽略 不 计 。 在 基带 或 宽带 传输 的 消息 
取决 于 传输 介质 和 信道 的 属性 : 
“ 如果 一 个 物理 信道 是 低 通 宽带 信道 ， 数 字 信 和 号 就 可 以 通过 信道 直接 传输 。 这 是 由 于 高 频率 的 损 
失 使 接收 到 的 信号 只 有 轻微 的 失真 ， 可 以 在 接收 端 恢复 。 这 种 基带 传输 处 理 非 周期 性 数字 信和 号 
如 图 2-2b 所 示 ， 其 高 频 成 分 县 有 较 低 的 振幅 并 且 可 以 忽略 不 计 
e 如 果 一 个 物理 信道 有 一 个 不 从 零 开始 的 有 限 带 宽 ， 那么 信道 就 是 一 个 带 通 信道 通过 带 通 信道 
传输 的 消息 需要 一 个 承载 传输 消息 的 载波 和 一 个 在 信道 上 传输 的 带 通 波形 调制 信号 〈 称 为 通 带 
信号 ) 。 通 带 信 号 的 频率 以 载波 频率 为 中 心 。 这 就 是 宽带 传输 。 宽 带 传输 承载 数据 穿越 带 通信 
道 ， 其 中 数字 基带 信号 必须 经 过 调制 转换 成 一 种 通 带 信号 。 在 数字 传输 中 ,， 通 带 信号 被 认为 是 
数字 信和 号， 但 其 波形 是 非 周 期 性 的 频谱 占用 有 限 带 宽 的 模拟 信和 号 形式 ， 如 图 2- 1b 所 示 。 


2. 1.3 传输 : 线路 编码 和 数字 调制 

在 通信 世界 中 ， 物 理 层 利用 各 种 编码 调制 技术 将 数据 转换 成 信号 ， 以 便于 消息 在 物理 信道 上 传输 ， 
并 且 信号 也 能 够 通过 传输 介质 。 在 计算 机 网 络 中 ， 重点 强调 线路 编码 和 数字 调制 技术 。 前 者 将 位 流 数 
字 信 号 转换 为 基带 信道 ， 而 后 者 为 带 通信 道 将 数字 基带 信号 转换 成 带 通 信和 号。 无 论 是 线路 编码 还 是 数 
字 调 制 ， 两 者 都 是 为 了 湛 是 数字 传输 或 数据 传输 的 同一 中 的 ， 但 它们 需要 进行 不 同 的 转折 

同步 、 基 线 徘徊 ( 漂移 ) 和 直流 分 量 


线路 编码 ， 又 称 为 数字 基带 调制 ， 采 用 离散 时 间 离 散 值 信号 ， 即 方 波 或 数字 信号 ， 只 能 通过 振幅 
和 定时 来 描述 发 送 的 0 和 1。 然 而， 在 数据 流 中 ， 一 长 串 不 改变 信和 号 值 的 相同 位 值 的 序列 可 能 会 导致 接 


收 器 时 钟 同步 的 丢失 和 漂移 离开 基线 : 

上 日 同步 可 以 用 来 校准 接收 器 的 时 钟 ， 以 同步 发 射 峰 和 接收 融 之 间 的 位 间隔。 基线 用 于 为 数字 数据 
确定 接收 到 的 信号 值 。 基线 徘徊 或 漂移 ， 使 解码 融 更 难 确定 接收 到 的 信号 数字 值 。 同 时 ， 不 归 零 
(NRZ) 等 编码 技术 还 可 能 引进 直流 (DC) 分 量 。 这 就 使 得 数字 信和 号 在 0 赫 效 具有 非 零 的 频率 分 量 ， 
即 直流 分 量 或 直流 偏差 

将 这 种 编码 应 用 到 位 值 相同 的 一 个 序列 ,不 仪 会 产生 同步 问题 ， 而 且 还 会 产生 无 相位 变化 的 恒定 
电压 的 数字 信和 号。 与 直流 平衡 波形 的 信号 (不 含 直流 分 量 ) 相 比 ， 具 有 直流 分 量 的 信号 会 消耗 更 多 的 
功率 。 而且， 革 些 类 型 的 信道 不 能 传输 直流 电 奈 或 电流 。 在 这 样 的 信道 上 上传 得 信和 号， 就 需要 没有 直流 
分 量 的 线路 编码 方案 ， 

总 之 ,线路 编码 的 主要 目的 是 防止 基线 徘徊 ， 消 除 直 流 分 量 ， 激 活 自 同步 ， 提 供 错误 检测 和 纠正 ， 
并 提高 信号 对 噪声 和 和 干扰 的 免疫 能 力 。 

振幅 、 频 率 、 相 位 和 编码 

数字 调制 使 用 由 振幅 、 频 率 、 相 位 或 编码 描述 的 连续 时 间或 离散 时 间 的 连续 值 信号 ， 或 模拟 信号， 
表示 来 自 一 个 信息 源 的 位 流 。 可 将 数字 位 流转 换 成 一 些 带 通信 号 。 该 带 通 信号 可 通过 某 一 载波 频率 为 
中 心 并 具有 有 限 带宽 的 带 通 信道 用 于 远 距离 传输 例如 ， 通 过 无 线 信 道 传输 消息 需要 线路 编码 和 数字 : 
调制 处 理 ， 这 样 消息 可 以 由 载波 传输 ， 同 时 其 调制 信和 号 经 过 带 通 信道 通过 自由 空间 传播 。 利用 振幅 、 
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频率 、 相 位 、 编 码 及 它们 的 组 合 ， 就 可 以 开发 出 多 种 数字 调制 技术 。 复 人 杂 调 制 技术 的 通用 目标 是 在 低 
尝 宽 和 充满 噪声 的 信道 上 以 较 高 的 速率 传 条 

此 外 ， dane di 例如 ， 在 无 线 通 信 中 ， 链 路 自 
适应 或 自 适应 编码 和 调制 (ACM) 是 与 编码 和 调制 的 方法 以 及 针对 信道 条 件 的 通信 协议 的 参数 相 
匹配 


2. 1.4 ”传输 损失 

传输 介质 并 不 是 完美 的 。 接 收 到 的 信号 并 不 是 与 发 送 的 信息 完全 一 样 ， 有 多 种 因素 可 能 损害 介质 
传输 的 可 靠 性 ， 如 衰减 、 衰 落 、 失 真 、 干 扰 或 噪声 ，。 这 里 对 传输 损失 及 其 补偿 措施 进行 讨论 。 

衰减 . 误 减 是 无 线 电波 或 电信 号 的 通 量 强度 逐渐 损失 的 过 程 。 误 减 影响 波 和 信和 号 的 传播 ， 当 信和 号 
通过 介质 传播 时 ， 因 为 传输 介 Pot 它 就 会 损失 一 些 能 量 何如。 电磁 波 被 水 粒子 吸收 或 在 无 
线 通 信 中 发 散 ， 电 磁 辆 射 强 度 就 误 减 了 。 因此， 在 发 射 器 和 接收 器 两 端 都 需要 低 噪 声 放 大 器 来 放大 信 
ee 息 。 放大 是 一 种 对 付 衰减 的 手段 。 

衰落 : 在 无 线 通 信 中 ， 通 过 某 种 介 ee ec htop dg 衰落 是 庄 减 随时 间 变 化 的 偏差 ， 
因为 它 会 随时 间 、 地 理 位 着 或 无 线 电 频 率 而 变 。 有 两 种 类 型 的 衰落 : 由 多 径 传播 引起 的 多 径 衰 落 ; 障 
We 生 的 这 蔽 衰落 。 一 个 经 历 苹 洲 的 信道 称 为 误 落 信道 

所 可 在 呈 中 发呆 代为 昌 和 的 俐 号 R 生 生 玫 。 这 种 失真 通常 发 生 在 复合 信号 中 。 传 播 后 ， 

Se 他 bo 了 了 ， 因 为 复合 信和 所 是 由 有 共有 不 同 频率 的 信 纪 组 成 ， 各 种 频率 会 经 历 不 同 的 传播 
延迟 这 样 会 产生 不 同 的 相 移 ， 从 而 产生 扭曲 了 的 信号 形状 .数字 信和 号 通常 由 多 个 周期 性 模拟 信号 构 
成 的 复合 模拟 信号 表示 因此， 数字 信和 咏 在 传输 后 往往 会 失真 ， 不 可 能 传输 很 还。 为 了 弥补 这 一 损失 ， 
人 们 会 使 用 适合 远 距离 传输 的 模拟 信号 波形 。 

干扰 : 干扰 与 噪声 有 着 显著 不 同 。 它 是 指 破坏 通过 信道 传 得 信号 的 任何 东西 。 它 通常 会 给 有 用 信 
写 增加 不 需要 的 信和 号。 著名 的 十 扰 例子 包括 同 频 干扰 (CC1) ， 又 称 为 串扰 ; 符号 间 于 扰 (1S1); 载波 
问 干扰 (ICD) 

噪声 : 噪声 是 模拟 信号 的 随机 波动 所 有 电子 电路 上 部 会 有 电子 噪声 ， 热 品 声 ， 或 奈 硅 斯 特 
( Nyquist) 噪声 ， 是 由 电荷 载体 的 热 扰 动产 生 的 。 它 常常 是 白 品 声 ， 妈 功率 谱 密 度 儿 乎 与 整个 频谱 一 
致 。 其 他 各 种 噪声 包括 感应 噪声 、 脉 冲 噪 声 和 量化 噪声 。 噪声 影 响 接收 融 恢 复 传输 数据 的 能 力 。 感应 
噪声 来 利家 用 电器 等 。 ne 
定义 为 平均 信号 功率 与 平均 噪声 功率 之 比 ， 这 是 限制 理论 位 速率 的 一 种 测量 。 为 了 弥补 噪声 对 传输 数 
据 的 影响 ,我 们 既 可 以 提高 信号 的 功率 也 可 以 降低 传输 位 速率 。 另 一 种 方法 是 使 用 对 噪声 具有 更 高 鲁 
棒 性 的 调制 技术 

因为 在 传播 过 程 中 信号 强度 的 衰落 ， 物 理 层 一 般 将 位 流 或 数学 波形 转换 成 调制 的 通 带 信和 号， 并 通 
过 物 浊 信和 省 发 送信 这 些 转 换 技 术 (编码 和 调制 ) 将 减轻 通信 系统 上 的 上述 损 失 。 在 接收 端 ， 对 信 

仿 测 、 解 调 、 iinet 换 名 话说， 数字 通信 系统 需要 能 通过 噪声 信道 传输 信息 、 过 
央 曙 i 并 从 传播 衰落 中 恢复 信和 号 的 能 


历史 演变 : 软件 定义 的 无 线 电 

在 传统 的 无 线 电 系统 中 ， 信 号 一 般 都 是 由 硬件 (如 ASIC 世 片 ) 处 理 而 不 是 由 软件 处 理 。 因 为 通 
用 处 理 器 的 硬件 技术 已 经 发 展 到 一 个 新 的 水 平 使 得 实时 地 处 理 信号 成 为 可 能 ， 于 是 就 出 现 了 软件 定义 
的 无 线 电 (SDR) 或 软件 无 线 电 。 软 件 无 线 电 的 概念 最 先 由 J Mitola 于 1991 年 提出 。 以 比 传统 系统 更 
低 的 费用 使 它 适 应 于 多 种 无 线 标准 ， 从 而 极 大 地 提高 了 无 线 电 系统 的 灵活 性 。 

在 传统 的 和 SDR 的 通信 系统 中 ， 信 号 处 理 流程 是 相同 的 。 区 别 在 于 信号 是 在 哪里 数字 化 然后 再 被 
软件 处 理 。 图 2-4 说 明了 一 个 经 过 一 系列 无 线 电 函数 可 以 实现 各 种 无 线 标准 的 无 线 节 点 。 与 图 2-3 相 
比 ， 图 2-4 扩展 到 包括 了 分 别 用 于 操作 RF 波形 和 下 波形 的 中 介 频 率 (Intermediate Frequency，IF) 处 
理 单元 和 无 线 电 频 率 (Radio Frequency，RF) 信道 接 入 。RF， 范 围 为 3kHz ~300GHz， 是 一 组 震荡 载 
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波 集合 ; 而 下 ， 范 围 为 10 ~100MHz， 是 由 RF 和 本 地 振荡 器 (LO) 频率 混合 所 产生 的 一 种 较 低 的 、 更 
容易 处 理 的 频率 


信 省 集 全 )) 
网 络 


受 保护 
克 波形 “基带 波形 的 位 流 明文 位 流 















RF 波 形 





言 道 编 码 / 解码 






图 2-4 无线 通信 系统 信号 流 的 功能 模型 


在 无 线 通信 系统 中 ， 数 字 信号 在 发 射 机 首先 调制 成 带 通 波形 ( 仍 在 基带 频率 范围 内 )， 然 后 向 上 
和 
块 处 理 ， 然 后 转换 成 IF 波形 ， 再 向 下 转换 成 基带 波形 并 进一步 解 调解 码 为 位 流 。 在 SDR 中， 信号 数字 
化 可 能 发 生 在 REF、IF 或 基带 波形 中 ， 分 别称 为 RF 数字 化 、IF 数字 化 或 基带 数字 化 。RF 数字 化 是 
SDR 在 软件 中 完全 处 理 其 余 无 线 电 函 数 的 一 个 理想 位 置 。 然 而 ， 因 为 高 速 宽带 ADC 和 通用 处 理 器 计算 
能 力 的 硬件 限制 ， 软 件 无 线 电 很 难 实现 RF 数字 化 。 此 外 ， 基 带 数字 化 不 视 为 软件 无 线 电 系统 的 一 部 
分 ， 因 为 这 样 做 没有 任何 增益 ， 这 一 点 与 传统 通信 系统 的 数字 化 相同 。 因 此 ， 正 数字 化 成 为 SDR 数字 
化 的 最 佳 选择 

目前 已 经 为 软件 无 线 电 系统 开发 了 多 个 公共 软件 无 线 电 项 目 ， 如 SpeakEasy、 联 合 战术 无 线 电 系统 
(Joint Tactical Radio System ，JTRS) 和 GNU Radio。GNU Radio 项 目 开 始 于 2001 年 ， 由 Eric Blossom 开 
发 ， 致 力 于 构建 最 小 硬件 需求 的 无 线 电 系统 。GNU Radio 是 一 个 开放 源 代码 的 开发 工具 包 ， 提 供 了 C++ 
言 号 处 理 模块 库 并 与 Python 链接 起 来 用 于 构建 软件 无 线 电 。GRC (CNU Radio Companion ) 一 种 GUI 
工具 ， 克 许 用 户 以 类 似 于 LabVIEW 或 Simulink 的 方式 互 连 信 号 处 理 模块 ， 同 时 构建 无 线 电 系统 。GRC 
可 以 使 得 CNU Radio 的 研究 ， 更 加 方便 ， 并 大 大 降低 了 学 习 曲 线 。 通 用 软件 无 线 电 外 设 (Universal 
Software Radio Peripheral ，USRP) ， 由 Matt Ettus 开发 ， 是 目前 GNU Radio 最 流行 的 硬件 平台 


2.2 介质 

传输 介质 被 物理 层 用 于 在 发 射 端 和 接收 端 之 间 传 输 信号 。 对 于 无 线 介 质 来 说 ， 是 自由 空间 ; 对 于 
有 线 媒 体 介 质 来 说 ， 就 是 金属 和 光线 。 由 于 我 们 采取 的 编码 和 调制 技术 可 能 部 分 地 依赖 于 传输 介质 的 
类 型 ， 所 以 我 们 首先 考察 这 些 传输 介质 的 特点 。 另 一 个 影响 选择 何 种 技术 的 因素 是 介质 的 运行 质量 ， 
这 很 大 程度 上 取决 于 距离 和 周围 环境 损害 情况 


2.2.1 有 线 介 质 
见 的 金属 和 光纤 电缆 有 线 介质 包括 双 绞 线 、 同 轴 电 缆 和 光纤 ， 通 过 这 些 介 质 传输 的 信和 号 无 论 是 

号 或 中 都 是 有 方向 性 的 并 受 物理 介质 属性 的 限制 。 

双 绞 线 

双 绞 线 由 缠绕 在 一 起 的 两 根 铜 导体 组 成 ， 以 防止 来 自 外 部 的 电磁 干扰 和 线 对 间 的 串扰 。 双 绞 线 既 
可 以 是 屏蔽 的 也 可 以 是 非 屏 蔽 的 。 屏 蔽 电缆 称 为 屏蔽 双 绞 线 (STP) ， 非 屏蔽 电缆 对 称 为 非 屏 蔽 双 绞 线 
(UTP)。STP 和 UTP 的 结构 如 图 2-5a、b 中 所 示 。STP 有 一 层 额 外 的 金属 屏蔽 提供 对 电磁 干扰 的 额外 你 
护 ， 但 UTP 双 绞 线 由 于 其 成 本 较 低 而 很 常见 。 由 于 技术 的 进步 ，UTP 足以 满足 实际 使 用 。 根 据 最 大 多 
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『 业 协会 、 电 信行 业 协会 ) 中 常见 的 规格 。 更 高 的 类 意味 着 对 铜 导 体 每 英寸 有 更 多 的 缠绕 蛮 数 从 市 能 
够 维持 更 高 的 信和 号 频率 ， 因 而 具有 更 高 的 位 速率 。 长 度 限 制 要 根据 日 标 的 位 速率 而 定 。 电 缆 越 短 ， 文 
持 的 位 速率 就 越 高 ， 


许 的 信和 号 频率 对 双 绞 线 进行 分 类 。 表 2-1 总 结 了 在 ANSI EIAZTIA 标准 568 (美国 国家 标准 学 会 、 电 子 





塑料 外 皮 绝缘 层 塑料 外 皮 绝缘 层 
a) 屏蔽 双 绞 线 ，STP a) 非 屏蔽 双 绞 线 ，UTP 


图 2-5 双 绞 线 电 缆 
表 2-1 常用 双 绞 线 电 线 规范 




















规 范 描 述 规 范 描 述 
172 类 用 于 传统 的 电话 线 ， 没 有 在 TIA/ZEIA 中 规定 |‖ 5(e) 类 规定 传输 特性 高 达 100MHz 
规定 传输 特性 高 达 250MHz ( Cat-6) 和 
3 类 规定 传输 特性 高 达 16MHz 6(a) 类 
类 见 定 传输 特性 高 达 Zz (a) 类 500MHz ( Cat-6a) 
4 类 规定 传输 特性 高 达 20MHz 7 类 规定 传输 特性 高 达 600MHz 








为 了 以 更 高 位 速率 传输 ， 人 们 既 可 以 使 用 支持 更 高 频率 的 电缆 也 可 以 设计 更 复杂 的 编码 调制 方案 ， 
以 便 在 同一 段 时 间 内 编码 更 多 的 位 。 虽 然 可 以 设计 出 复杂 的 编 解码 器 或 调制 解 调 器 在 低频 率 信 号 传输 数 
据 ， 但 因 电 路 成 本 过 高 而 使 这 种 设计 不 实用 。 随 着 近年 来 电缆 成 本 的 降低 ， 通 过 更 好 的 电线 传输 而 不 是 
依靠 复杂 的 编码 或 调制 方案 会 更 经 济 。 例如， 虽然 的 确 存在 3/4 类 双 绞 线 传输 超过 100Mbps 的 以 太 网 技 
术 ， 但 很 少 在 实践 中 应 用 。 几 乎 现 有 所 有 的 100Mbps 以 太 网 接口 都 运行 在 5 类 电缆 的 100Base-T， 

同 轴 电 线 

同 轴 电 缆 由 内 导体 〈 铜 芯 ) 、 绝 缘 层 、 编 织 外 层 导 体 ， 再 加 上 一 绝缘 层 和 一 个 塑料 外 套 组 成 ， 如 
图 2-6 所 示 。 同 轴 电 缆 在 许多 应 用 中 非常 常见 ， 如 有 线 电视 网 络 和 使 用 电缆 调制 解 调 吉 的 宽带 互联 网 
接 入 。 它 曾经 是 用 于 以 太 网 的 流行 媒介 质 ， 但 它 已 被 双 绞 线 和 光纤 所 替代 。 





编织 外 部 导体 
层 导体 内 部 导体 





绝缘 体 


塑料 
外 套 


图 2-6 同 轴 电缆 
不 同类 型 的 同 轴 电 线 具 有 不 同 的 内 部 和 外 部 参数 ， 相 应 地 也 会 影响 阻抗 等 传输 特性 。 最 通用 的 类 
型 是 RG -6， 其 中 直径 为 0.0403 英寸 ,可 以 工作 在 大 约 3CHz。 
光纤 
光 能 从 一 种 透明 的 介质 传人 到 另 一 种 介质 ， 但 光 的 传播 方向 会 发 生变 化 。 这 种 现象 称 为 光 的 折射 。 
方向 改变 多 少 要 根据 介质 的 折射 率 、 光 在 真空 中 的 速度 与 在 介质 中 的 速度 之 比 来 确定 。 这 种 折射 现象 的 
关系 ， 即 斯 涅 耳 (Snel) 定律 ， 是 由 Willebrord Snell 推导 出 来 的 。 斯 涅 耳 定 律 规定 nsin@, = nsing,， 如 | 
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图 2-7 所 示 。 当 光 从 一 个 更 高 折射 率 的 介质 到 另 一 个 较 低 折射 率 的 介质 时 ， 光 可 以 折射 99"， 即 折射 角 
这 时 入 射 角 为 临界 角 ，9, ， 如 图 2-7 所 示 。 如 果 光 在 这 两 种 介质 中 的 入 射 角 大 于 9,， 它 器 不 会 进入 第 二 
种 介质 ， 将 反射 回 第 一 种 介质 中 。 这 称 为 全 内 反射 (或 全 反射 ) 光纤 应 用 就 是 基于 全 反射 的 原理 






空气 (折射 率 : 1) 
水 (折射 率 : 六) 





图 2-7 光线 折射 和 全 内 反射 
光纤 以 光 的 形式 沿 光 缆 内 芯 传 播 信号 ;由 于 全 内 反射 ， 光 线 就 可 以 保持 在 蔚 中 :光源 可 以 是 发 光 
二 极 管 (LED) 也 可 以 是 激光 。 光 纤 的 结构 如 图 2-8 所 示 , 在 细 的 玻璃 或 塑料 世上 黎 盖 了 一 层 不 同窗 
度 的 包 层 玻璃 ， 然 后 外 加 封套 。 包 层 介 质 具 有 低 的 折射 率 ， 芯 的 介质 则 具有 和 较 高 的 折射 率 
包 层 (玻璃 ) 





封套 (塑料 层 ) 世 (玻璃 或 者 塑料 ) 
图 2-8 光纤 


经 过 光纤 的 不 同 光 传 导 形 式 称 为 模式 。 如 果 一 根 光纤 以 多 于 一 种 的 模式 以 特定 波长 承载 光 ， 它 就 称 
为 多 模 光 纤 。 如 果 光 纤 非 常 细 ， 只 能 允许 传输 一 种 模式 通过 心 ， 就 称 为 单 模 光 纤 。 图 2-9 显示 了 两 种 主 
要 的 光纤 ， 分 别 是 多 模 光 纤 和 单 模 光 纤 。 多 模 光 纤 有 一 个 较 粗 的 蕊 (通常 大 于 50 微米 ) ， 光 是 通过 反射 
而 不 是 在 一 条 直线 上 传播 ， 尽管 有 更 便宜 的 发 射 器 和 接收 器 ， 但 由 于 光 信 号 传播 速度 的 多 样 性 ， 多 模 光 
纤 会 引入 较 高 的 模 色 散 。 色 散 限制 了 多 模 光 纤 的 带宽 和 通信 距离 。 单 模 光 纤 有 一 个 更 细 的 必 (通常 小 于 
10 微米 ) ， 它 强制 光 信 号 沿 直线 前 进 。 单 模 光 纤 能 够 传输 得 更 远 ， 速 度 也 会 更 快 ， 但 制造 成 本 会 更 高 


不 同 模式 






单 模 光 纤 


图 2-9 单 模 光 纤 和 多 模 光纤 
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光纤 与 铜 导线 相 比 县 有 很 多 优 热 ， 因 为 它们 对 外 部 电磁 干扰 共有 低 的 衰减 并 且 不 容易 受到 干扰 。 
它们 比 铜 电缆 更 加 难以 窃听 。 因 此 ， 它 们 经 常用 在 高 速 科 远 距 离 传 输 中 。 由 于 上 日 前 部 署 成 本 较 高 ， 它 
们 大 多 用 于 骨 十 网 而 非 用 于 私人 - 


2.2.2 无 线 介质 

无 线 介质 是 允许 电磁 波 传播 的 自由 空间 ， 而 不 需要 使 用 任何 物理 电缆 。 电 磁 波 在 自由 空间 中 是 以 
广播 式 传 输 的 ， 能 够 被 波 履 盖 范 表 内 的 任何 接收 天 线 接收 。 

传播 方法 

有 三 种 传播 电磁 波 的 方法 ， 分 别 是 : 地 面 传播 、 天 空 传播 和 视 距 传播 ,地 面 传播 由 大 气 低层 传输 
的 低频 率 波 或 信号 使 用 。 地 面 传播 的 应 用 有 无 线 电 导航 系统 或 无 线 电信 标 。 更 高 频率 的 波 会 到 达 电 离 
层 再 通过 天 空 传播 反射 回 地 球 。 调幅 (AM) 无 线 电 、 调 频 (FM) 无 线 电 、 蜂 窝 电 话 、 无 线 局 域 网 、 
其 高 频 (VHF) TV 、 超 高 频 CUHF) 电视 和 民用 波段 属于 此 种 应 用 。 在 视 距 传播 中 ， 高 频 波 从 源 直 接 
传输 到 日 的 地 ,卫星 通 信和 是 采 视 距 传播 方法 的 应 用 。 视 距 传播 的 意思 是 发 送 者 和 接收 者 在 一 条 直线 上 
可 以 相互 看 到 ,但 真正 的 其 高 频 单 向 波 才 是 如 此 。 属 于 此 类 的 许多 信号 除了 直线 传播 和 反射 外 ， 还 以 
折射 和 衍射 传播 。 折射 是 当 波 以 一 定 角度 进入 另 一 种 介质 时 ， 在 速度 上 发 生变 化 ， 因 此 方向 也 会 发 生 
改变 。 衍 射 是 指 能 饮用 绕 障碍 物 弯 曲 并 能 通过 小 缺口 传播 出 去 的 波 。 

传输 波 : 无 线 电 、 微 波 、 红 外 线 

用 于 传输 的 电磁 波 分 为 三 类 : 无 线 电 、 微 波 和 红外 线 。 无 线 电 范围 是 大 约 3kHz ~ 1CHz。 频 率 范 围 
包括 VLF (其 低频 ，3 ~30kHz) 、LF (低频 ，30 ~300kHz) 、MF (中 频 ，300kHz ~3MHz) 、HF (高 频 ， 
3 ~30MHz) 、VHF (其 高 频 ，30 ~ 300MHz)、UHF ( 特 高 频 ，300MHz ~3GHz)。 无 线 电波 通常 使 用 全 
向 天 线 ， 能 以 任意 方向 经 过 地 面 和 天空 接收 、 发 送信 和 号。 使 用 全 向 天 线 的 缺点 是 信号 很 容易 受到 附近 
其 他 使 用 相同 频率 的 用 户 的 和 干扰。 优点 在 于 信号 可 以 由 同一 个 天 线 发 送 ， 但 可 以 被 很 多 接收 机 接收 。 
它 适 合 于 组 播 或 广播 。 此 外 ， 经 过 天 空 传播 的 无 线 电波 可 以 传输 很 远 的 距离 。 这 就 是 选择 无 线 电波 进 
行 广播 的 原因 。 其 应 用 为 调频 广播 和 调幅 广播 、 电 视 广 播 和 寻 呼 

微波 的 典型 范围 是 1CHz ~ 300CHz， 涵 盖 部 分 UHF (300MHz ~ 3GHz)，SHF ( 超 高 频 ，3 ~ 
30GCHz) ，EHF (30 ~300CHz) 。 然 而 ， 大 多 数 应 用 通常 在 1 ~40GHz 范围 内 。 例 如 ， 全 球 定位 系统 
(CPS) 在 大 约 1.2~1.6GHz 的 范围 内 传输 信和 号，IEEE802. 11 使 用 2.4CHz 和 5GCHz，WiMAX 工作 在 
2~11CHz。 如 果 发 射 和 接收 天 线 能 够 对 准 进行 视 距 传播 ， 那 么 更 高 频率 的 微波 就 使 用 定向 天 线 来 发 
送 和 接收 信 叶 。 这 种 类 型 的 定向 天 线 是 喇叭 形 ， 采 用 喇叭 的 弯曲 形状 可 以 平行 地 发 出 微波 束 。 定 向 
接收 天 线 是 殷 物 面 蝶 形 天 线 ， 为 了 收集 这 些 信 和 号 需要 在 一 个 共同 点 收集 广泛 的 平行 光束 。 收 集 的 信 
号 然后 青 通 过 导线 传送 到 接收 设备 。 

与 无 线 电 波 相 类 似 ， 微 波 传输 需要 使 用 监管 部 门 分 配 的 频谱 中 的 可 用 频带 。 幸 运 的 是 ，ISM ( 工 
业 、 科 学 和 医疗 ) 频段 的 使 用 是 无 须 申 请 许可 证 的 。 使 用 ISM 频段 的 一 个 常见 例子 是 微波 炉 ， 工 作 在 
2.4GHz 频带 。 无 绳 电话 、 无 线 局 域 网 ， 以 及 许多 短 距 离 无 线 设 备 也 工作 在 ISM 频段 ， 也 无 须 取 得 频段 
使 用 许可 证 。 由 于 多 种 无 线 设备 通常 在 同一 时 间 共 享 ISM 频段 ， 所 以 在 这 些 设备 之 间 避 免 干扰 是 必要 
的 。 扩 频 ， 将 传播 信号 功率 扩展 到 一 个 更 广泛 的 频谱 上 ， 是 WLAN 中 用 来 避免 干扰 的 技术 之 一 。 因 为 
一 个 信号 扩展 到 更 宽 的 频谱 上 不 再 受 罕 带 干扰 的 影响 ， 从 而 接收 占有 更 好 的 机 会 来 准确 地 恢复 传播 信 
号 。 扩 频 将 在 2.5 市 中 介绍 。 

红外 线 波 的 范围 是 300CHz ~400THz， 用 于 短 距离 传输 。 由 于 高 频率 的 特性 ， 红 外 线 波 不 能 穿 透 墙 
壁 ， 央 此 它们 可 以 在 一 个 房间 里 使 用 ， 而 不 会 受到 其 他 房间 中 设备 的 和 干扰。 有 些 设备 ， 如 无 线 键 盘 、 
鼠标 、 笔 记 本 电脑 和 打印 机 ， 可 以 使 用 红外 线 波 通过 视 距 传播 来 传送 数据 。 

移动 性 

无 线 通 信 与 有 线 通 信 相 比 最 明显 的 优势 是 移动 性 。 与 使 用 电缆 传输 不 同 ， 无 线 连接 使 用 无 线 频谱 。 
大 多 数 无 线 系统 使 用 微波 频谱 ,尤其 是 从 800MHz ~2CHz， 以 便 维持 全 方向 和 高 位 速率 之 间 的 平衡 
更 高 的 频谱 可 以 提供 更 高 的 位 速率 ， 但 那 就 会 更 加 有 方向 性 并 失去 可 移动 性 。 
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2.3 信息 编码 和 基带 传输 

在 计算 机 网 络 和 信息 处 理 中 ,代码 (code) 是 一 种 将 信息 从 一 种 形式 或 表示 转换 成 男 一 种 的 方案 ， 
编码 (coding) 是 一 种 将 信息 源 转换 成 符号 的 处 理 ， 而 解码 ( decoding) 则 是 逆向 处 理 , 在 2.1 节 中 的 
传输 流 和 接收 流 中 ， 计 算 机 网 络 中 的 信息 源 在 传输 或 进一步 调制 之 前 是 由 信 源 编码 、 信 道 编码 和 线路 
编码 处 理 的 。 信 源 编 码 和 信道 编码 属于 信息 和 编码 理论 领域 , 但 是 线路 编码 则 届 于 数字 基带 调制 领域 

信 源 编码 帮 来 压缩 并 减少 需要 的 存储 空间 ， 从 而 提高 信道 的 数据 传输 效率 ,尤其 是 在 用 于 存储 或 
传输 图 像 、 音 频 、 视 频 和 语音 时 更 是 如 此 ， 信 源 编码 通常 是 在 应 用 层 上 进行 的 。 信 道 编码 通常 会 在 原 
台数 据 上 增加 额外 的 位 ， 使 数据 对 由 信道 引入 的 损害 有 上 更 高 的 鲁 棒 性 ， 信 源 编 码 既 可 以 在 链 路 层 也 可 
以 在 物理 层 上 实现 。 线 路 编码 不 仅 将 数字 数据 转换 成 数字 信和 号， 而 且 还 处 理 基线 徘徊 、 同 步 委 失 和 直 
流 分 量 等 问题 ， 参 见 2.1 节 中 的 讨论 。 本 节 介 绍 源 编码 和 信道 编码 ， 并 提出 各 种 线路 编码 的 方案 ， 


2.3.1 信 源 编码 和 信道 编码 

信 源 编码 

信 源 编码 的 目的 是 形成 高 效 的 信息 源 描述 ， 以 便 可 以 减少 所 需要 的 存储 或 带宽 资源 。 它 已 成 为 通 
言 中 的 一 个 基本 子 系统 ， 并 且 它 使 用 来 自 数字 信号 处 理 (DSP) 和 集成 电路 (IC) 的 技术 。 有 多 种 压 
缩 算法 和 标准 用 于 图 像 、 音 频 、 视 频 、 语 音 等 领域 的 信 源 编码 。 信 源 压缩 的 一 些 应 用 如 下 : 

图 像 压缩 ; 无 压缩 时 ， 图 像 源 太 大 以 至 于 不 能 存储 并 在 信道 上 传输 。 联 合 图 像 专家 组 (JPEG) 和 
运动 图 像 专家 组 (MPEG) 是 两 种 流行 的 图 像 压缩 方案 。 

音频 压缩 : 流行 的 音频 不 缩 技术 包括 光盘 (CD)、 数 字 多 功能 光盘 (DVD)、 数 字音 频 广播 
(DAB) 和 运动 图 像 专 家 组 音频 层 3 (MP3 ) 

语音 压缩 : 语音 奈 缩 通常 应 用 于 电话 ， 尤 其 是 蜂窝 电话 。 例 如 ，C. 72x 和 G.711 标准 。 

信道 编码 

信道 编码 是 用 来 保护 数字 数据 ， 在 转发 或 检索 数据 时 使 它 能 够 通过 可 能 会 导致 错误 的 、 充 满 噪声 
的 传输 介质 或 一 种 不 完美 的 存储 介质 。 在 通信 系统 中 的 发 射 器 ， 根据 预定 的 算法 通常 会 给 消息 添加 元 
余 位 。 接 收 器 可 以 检测 并 纠正 由 噪声 、 误 减 或 干扰 所 造成 的 错误 。 任 何 信道 编码 的 性 能 都 受 限 于 香农 
(Shannon) 信道 编码 定理 ， 其 中 规定 只 要 传输 速率 低 于 某 一 数量 ， 又 称 为 信道 容量 ， 那 么 在 有 噪声 的 
信道 上 就 可 能 无 差错 地 传输 数据 。 更 正式 地 说 ， 任 何 无 限 小 a > 0 和 任何 小 于 信道 容量 的 数据 传输 速 
率 ， 总 会 存在 一 种 编码 和 解码 方案 ,能够 确保 足够 长 代码 的 错误 概率 小 于 ze。 相 反 ， 香 农 信 和 道 编码 定 
理 也 指出 ， 以 高 于 信道 容量 的 速度 传输 将 具有 大 于 0 的 错误 概率 。 

对 于 错误 纠正 系统 ， 接 收 器 通常 采用 两 种 方案 以 便 纠正 错误 。 一 种 是 自动 重复 请 求 (ARQ ) ， 另 
一 种 是 前 向 错误 纠 错 (FEC)。 与 ARQ 不 同 ，FEC 可 以 用 来 纠正 错误 ， 而 不 要 求 发 送 器 重新 发 送 原始 
数据 。 位 交织 (交错 ) 是 数字 通信 中 用 于 对 付 突 发 错误 的 另 一 种 方案 ， 但 它 会 增加 延迟 。 它 置换 数据 
流 中 的 编码 位 ， 使 仅 有 有 限 的 连续 编码 位 在 传输 过 程 中 才 会 受到 突 发 错误 的 影响 。 

错误 纠正 码 可 以 分 为 分 组 码 和 卷 积 码 。 卷 积 码 是 对 任意 长 度 的 位 流 逐 位 进行 处 理 ， 而 分 组 码 是 对 
位 流 中 固定 大 小 的 分 组 逐 块 进行 操作 。 分 组 码 常见 的 例子 包括 海 明 码 和 Reed- Solomon 码 。Turbo 码 ， 
是 1993 年 开发 的 一 种 非常 强大 的 纠 错 技术 ， 是 从 预定 义 交 织 交 错 的 卷 积 码 中 推导 而 来 的 。 

海 明 码 是 1950 年 发 现 的 并 且 沿 用 至 今 ， 例 如 用 于 存储 设备 中 的 错误 校正 等 。Reed- Solomon 码 有 着 广泛 
的 应 用 。 例如 CD、DVD、 蓝 光 光 盘 、 数 字 用 户 线路 ( DSL) 、 全 球 微波 互联 接 入 WiMAX) 、 数 字 视 频 广播 
(CDVB) 、 高 级 电视 系统 委员 会 (ATSC) 、 和 磁盘 元 余 阵列 (RAID) 系统 ， 就 是 使 用 的 Reed- Solomon 码 的 应 
用 卷 积 码 通常 应 用 到 数字 无 线 电 、 移 动 通信 和 卫星 通信 等 应 用 中 。Turbo 码 可 接近 信道 容量 或 香农 极限 
Turbo 码 广 泛 应 用 于 36 移动 通信 标准 、 长 期 演进 (LTE) 项 目 ， 以 及 IEEE 802. 16 WiMAX 标准 中 。 


2. 3.2 线路 编码 
线路 编码 是 一 种 将 脉冲 调制 应 用 到 二 进 制 符号 的 处 理 过 程 ， 并 产生 一 种 脉冲 编码 调制 (PCM) 波 
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形 ，PCM 波形 称 为 线路 编码 。 脉 冲 调 制 采 用 一 组 规则 的 脉冲 序列 来 表示 对 应 的 一 系列 承载 信息 的 数 
量 ， 有 四 种 基本 的 脉冲 调制 形式 : 脉冲 振幅 调制 (PAM)、 脉 码 调 制 (PCM) 、 脉 冲 宽度 调制 (PWM) 
或 脉 宽 调 制 (PDM) 、 脉 冲 位 置 调制 (PPM)。 与 PAM、PWM 和 PPM 不 同 ，PCM 使 用 两 个 不 同 振幅 的 
序列 来 表示 一 个 量化 的 采样 或 相应 的 位 流 ， 因 此 PCM 就 成 为 现代 数字 通信 中 最 受 青 睐 的 脉冲 调制 。 这 
是 因为 从 一 个 两 状态 序列 检测 并 决定 数据 的 值 比 准确 地 测量 振幅 、 持 续 时 间或 脉冲 分 别 在 PAM、PWM 
和 PPM 接收 机 中 的 位 置 要 简单 得 多 .这 里 所 描述 的 所 有 线路 编码 方案 都 属于 PCM 

自 同步 

在 计算 机 网 络 中 存储 的 数据 是 数字 形式 的 位 序列 。 这 些 序列 需要 转换 为 数字 信号 才能 在 物理 信道 
| 传输。 正如 前 面 2.1 节 中 所 述 ， 线 路 编码 将 数字 数据 转换 成 可 以 通过 基带 信道 传 箱 的 数字 信号。 如 
果 通 信和 是 在 带 通 或 宽带 信道 上: 进行 的 ， 就 会 使 用 不 同 的 方案 将 数据 转换 成 信号 通 带 。 图 2- 10 说 明了 线 
路 编码 方案 ， 数 字数 据 是 从 发 射 问 发 送 到 接收 需 。 


sdr=2 sdr>1 
1 0 1 0 sdr=1 sdr=] 
数字 传输 1 剖 业 站 珊 sdr=1/2 sd=1 


1 0 1 0 

















数字 数字 数字 
数据 信号 信号 
图 2-10 线路 编码 和 信和 号 数据 率 
在 接收 端 ， 线 路 解码 器 的 位 间隔 必须 与 对 应 发 射 机 的 线路 编码 器 的 位 间隔 完全 匹配 :任何 位 间隔 


的 微小 变化 或 偏 移 部 可 能 导致 信号 的 误解 。 为 了 保证 接收 机 能 够 将 接收 到 的 信和 号 正确 解码 为 与 发 射 机 
发 射 的 位 序列 相同 ， 接 收 机 时 钟 与 发 射 机 时 钟 保持 同步 非常 重要 。 如 果 某 线路 编码 方案 在 一 个 数字 信 
号 中 可 入 了 位 间 隐 信息 ， 接 收 到 的 信号 就 可 以 帮助 接收 机 利用 发 射 机 的 时 钟 来 同步 其 时 钟 ， 并 且 其 线 
路 解码 器 可 以 从 数字 信号 中 检测 到 准确 的 数字 数据 。 这 是 一 种 自 同步 技术 。 有 些 线路 编码 方案 提供 了 
和 目 辣 步 ， 而 有 些 则 不 提供 

信号 数据 率 

在 图 2- 10 中 ,信号 数据 率 (SDR) (类 似 于 术语 信 噪 比 ) 是 信号 元 素 的 数量 与 数据 元 素 的 数量 之 比 ， 
数据 速率 是 在 一 秒 钟 内 发 送 的 数据 元 素 的 数量 ， 义 称 为 位 速率 (单位 为 bps)， 而 信号 过 府 则 是 在 一 秒 钟 内 
发 送 的 信和 号 元 素 的 数量 ， 又 称 为 波 特 率 、 脉 冲 速率 、 调 制 速率 。 信 和 号 速率 和 数据 速率 之 间 的 关系 可 以 表示 为 
S = cxNxsdr， 其 中 5 是 信号 速率 ,。 为 环境 因子 ，W 为 数据 速率 。 分 别 在 最 坏 的 情况 下 、 最 好 的 情况 下 或 
平均 情况 下 指定 环境 因子 c。 平均 情况 下 ，e 的 值 为 /2。 信 和 号 速率 越 小 ， 信 道 需要 的 带宽 就 越 少 。 因 此 ， 可 
以 从 上 述 讨论 得 出 ， 如 果 sdr > 1， 信 号 就 可 能 包含 自 同步 信息 ， 所 需要 的 信道 之 觉 就 会 增加 。 

在 2.1 节 中 ， 我 们 提 到 非 周期 性 的 数字 信号 具有 无 限 连续 的 频谱 范围 。 然 而 ， 大 多 数 的 高 频谱 振 
幅 很 小 可 以 忽略 不 计 。 因 此 ， 一 个 有 效 的 有 限 带宽 可 以 用 于 数字 信号 ， 而 不 是 无 限 范围 的 带宽 ,带宽 
常常 定义 为 以 赫兹 表示 频率 范 乃 的 传输 信道 。 央 此 ， 我 们 假设 在 以 赫 效 (频率 ) 表示 的 带宽 与 波 特 率 
(信和 号 率 ) 成 正比 ， 而 以 位 每 秒 (bps) 表示 的 带宽 与 位 速率 (数据 速率 ) 成 正比 

线路 编码 方案 

这 里 简要 地 叙述 在 线路 编码 使 用 的 术语 。 在 二 进 制 波形 中 , “1” 称 为 “标记 ”或 “HI ”， 而 “0” 
称 为 “ 空 ”或 “LO”。 在 单 极 性 信号 中 ,“1” 代 表 一 个 有 限 的 了 伏 电 压 ,“0” 表 示 零 伏 电 奈 。 在 极 性 
信号 中 ,“1” 表 示 具 有 有 限 的 V 伏 电压 ,“0” 表 示 具 有 -=V 伏 电压 。 最后， 在 双 极 性 信号 中 ,“1” 代 
表 有 限 的 了 或 -站 伏 电 压 ,“0” 代 表 零 伏 电 压 。 线 路 编码 方案 可 以 分 为 儿 类 ， 如 表 2-2 所 示 , 除了 上 
述 二 类 之 外 ,还 有 多 层 和 多 跳 变 转换 (multitransition) 类 型 。 因 为 单 极 信号 是 直流 不 平衡 的 而 且 为 了 
传输 需要 比 极 性 信号 更 多 的 功率 ， 目 前， 一 般 情况 下 已 经 不 再 使 用 。 线 路 编码 的 波形 如 图 2-11 中 所 
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示 ， 每 种 编码 方案 所 需要 的 带宽 如 图 2-12 所 示 。 下面， 我们 使 用 图 2-11 和 图 2- 12 对 这 些 方案 进行 了 
详细 的 描述 。 还 给 出 了 两 种 高 级 的 编码 方案 ,行程 长 度 受 限 ( RLL) 和 分 组 编码 。 


表 2-2 线路 编码 分 类 


























线路 编码 分 类 线路 编码 线路 编码 分 类 线路 编码 
单 极 性 NRZ 多 电 平 2B1Q 、8B6T 
极 性 NRZ、RZ、 曼 彻 斯 特 、 差 分 曼彻斯特 多 跳 变 转换 MLT3 
双 极 性 AMI、 伪 人 码 
| 1 | | 用: | 时 | | | 村 1 | | 一 时钟 
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极 导 NRZ-I 


和 极 性 RZ 





一 一 一 一 一 一 一 曼彻斯特 的 





一 差分 曼彻斯特 码 








AMI 
i - | | MET3 
图 2-11 线路 编码 方案 的 波形 

没有 自 同步 的 单 极 性 不 归 零 (NRZ) 

使 用 这 种 方案 ,位 1 定义 为 一 个 正 的 电压 ,位 0 定义 为 0 电压 。 由 于 信号 在 位 的 中 间 不 返回 到 零 ， 
所 以 该 方案 称 为 不 归 零 。 单 极 性 NRZ 所 需要 的 功率 是 极 性 NRZ 的 两 倍 

没有 自 同步 的 极 性 不 归 零 (NRZ) 

这 种 编码 方案 将 正 电 平定 义 为 1， 将 负电 平定 义 为 0。 极 性 NRZ 还 有 几 个 变种 ,包括 极 性 不 归 堆 
电 平 ( 极 性 NRZ-L)、 极 性 不 归 震 反 相 ( 极 性 NRZT) 、 极 性 不 归 零 空 ( 极 性 NRZS) 

极 性 不 归 零 电 平 (NRZ-L) : 该 方案 将 1 定义 成 一 个 正 电 平 ，0 定义 成 负电 平 。 如 果 一 长 串 位 (无 
论 是 位 1 还 是 位 0) 没有 发 生变 化 ,那么 位 间隔 信息 就 可 能 会 琉 失 。 这 种 方案 要 求 额外 支持 在 发 射 器 
和 接收 器 之 间 提 供 时 钟 同步 

极 性 不 归 零 空 (NRZ-S) :“1” 表 示 信 号 电 平 没 有 改变 , “0” 表示 信 和 号 电 平 跳 变 ， 高 级 数据 链 路 
控制 (HDLC) 和 通用 串 行 总 线 (USB) 使 用 此 种 方案 ， 但 会 在 一 长 串 1 中 填充 0。 由 于 填充 0 可 以 激 
活 跳 变 ， 所 以 就 可 以 避免 长 的 “没有 变化 ” ， 从 而 实现 时 钟 同步 。 

极 性 不 归 零 反 转 (NRZ- [ ): 与 NRZ-S 相反 ， 这 里 的 位 “1” 意 味 着 一 次 跳 变 ， 位 “0” 是 指 没 有 
跳 变 ， 假 定 一 位 ， 跳 变 发 生 在 时 钟 的 前 缘 。 类似 地 ， 一 长 串 0 而 没有 跳 变 就 会 破坏 同步 属性 ， 在 极 性 
NRZ-I 编码 之 前 ， 可 以 将 上 上 节 中 讨论 过 的 分 组 编码 应 用 到 该 方案 中 ， 以 减少 失去 同步 的 机 会 。 也 可 将 
在 后 面 进一步 讨论 的 RLL 与 NRZ-1 结合 起 来 使 用 ， 

在 极 性 NRI-L 中 的 基线 漂移 和 同步 问题 比 极 性 NRZ-S 和 极 性 NRZ-I 中 的 严重 两 倍 ， 因 为 在 极 性 
NRZ-L 中 不 论 是 位 “1” 还 是 位 “0” 都 可 能 会 产生 一 长 串 没 有 变化 的 连续 位 ， 所 以 会 造成 偏离 平均 信 
号 功率 并 失去 同步 ， 而 在 极 性 NRZ-S 和 极 性 NRZ-1 中， 只 有 一 种 类 型 的 位 ， 是 “1” 或 “0”， 将 会 产 
生 一 长 串 没 有 变化 的 序列 。 所 有 极 性 NRZ 机 制 既 没有 自 时 钟 也 没有 自动 静止 状态 ， 它 们 都 是 在 信号 电 
平 索 ， 央 此 就 需要 有 一 种 额外 的 同步 机 制 来 阻止 位 嘻 移 。 例 如 ， 磁 盘 和 磁带 使 用 极 性 NRZ-T 的 RLL 编 
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码 ，USB 使 用 极 性 NRZ-S 的 位 填充 ， 极 性 NRZ 方案 很 简单 、 便 宜 。1000BASE- X 以 太 网 仍然 使 用 极 性 
































NRZ， 就 是 因为 它 所 对 应 的 分 组 编码 8BZ10B 能 为 以 太 网 中 的 高 速 传输 提供 足够 的 同步 。 
4 极 性 NRZ 线 路 编 公 的 带宽 sdr=1 人 极 性 RZ 线路 编码 的 带宽 sdr=2 
平均 波 特 率 =W2 (N, 位 速率 ) 平均 波 特 率 =M (WN, 位 速率 ) 
1.0 二 | | 
ft 性 
0.5 十 05 十 
0 | 下 加 0 + + + Co—— 
0 A IN ND 3 0 N/2 IN NO 2N 
频率 频率 
a) 极 性 NRZ- 和 极 性 NRZ-I 的 带宽 b) 极 性 RZ 的 带宽 
4 曼 切 斯 特 线路 编 但 的 带 帝 sdr- AMI 线 路 编码 的 带宽 sdr-1 
平均 波 特 率 - TAN, 位 速率 ) 平均 波 特 率 =N2 (WN, 位 速率 ) 
10 十 10 十 
全 写 | 
0.5 十 re 0.5 十 
0 一 | | ss 一 0 必 -十 一 一 二 | 一 
0 V/3 IN 3Ma 3N 0 NO IN 3M2 aN 
频率 频率 
<) 曼 转 斯 特 编 码 的 带宽 d) AMI 编 码 的 带宽 
4 2B1Q 线 路 编码 的 带宽 sdr=112 
平均 波 特 率 =N/4 CN, 位 速率 ) 
1 
(0.5 
0 2 加 
0 N2 IN 3N2 2N 
频率 


e) 2BIQ 的 带宽 
图 2-12 线路 编码 的 带宽 

极 性 NRZ 的 sdr 为 1， 因 此 平均 信号 速率 〈 波 特 率 ) $=c xNxsdr=1/2 xNx1=N/2。 如 果 带 宽 
与 波 特 率 成 正比 ， 那 么 极 性 NRZ 的 带宽 可 表示 为 图 2- 12a 所 示 。 因 为 高 功率 密度 大 约 是 在 频率 0， 大 
多 数 能 量 分 布 在 频率 范围 从 0 ~ WM2， 所 以 这 就 意味 着 直流 分 量 携带 了 很 大 的 功率 ， 功 率 不 是 均匀 地 分 
布 在 信号 频率 N/2 的 两 边 。 极 性 NRZ 里 比 其 他 带 有 DC 分 量 接近 于 零 的 方案 消耗 更 多 的 功率 。 

带 有 自 同步 的 极 性 归 零 (RZ) 

二 进 制 信号 可 以 通过 极 性 归 堆 〈 极 性 RZ) 进行 编码 ， 如 图 2-11 所 了 示 。 代 表 位 “1” 或 位 “0” 的 脉 
冲 总 是 在 当前 位 的 中 间 点 返回 到 一 个 用 零 来 标示 的 中 性 或 静止 状态 。 这 种 编码 与 极 性 NRZ 相 比 的 优点 在 
于 自 时 钟 同步 ,但 以 使 用 双 倍 带宽 为 代价 。 极 性 RZ 的 带宽 如 图 2- 12b 所 示 。 这 里 ， 极 性 RZ 编码 的 平均 
波 特 率 为 N， 这 和 位 速率 相同 ， 并 且 sdr 等 于 2。 功率 密度 均匀 地 分 布 在 波 特 率 N 的 两 边 ， 这 里 DC 分 量 
入 载 非常 小 的 几乎 接近 于 零 的 功率 。 然 而 ， 使 用 三 电 平 电 厅 会 增加 编码 和 解码 装置 的 复杂 性 。 因 此 ， 曼 
彻 斯 特 和 差分 曼彻斯特 方案 比 极 性 RZ 具有 较 好 的 性 能 。 极 性 RZ 目前 已 经 不 再 使 用 了 。 
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极 性 曼彻斯特 编码 和 带 有 自 te 
曼彻斯特 rh 跳 变 代表 “1”， 由 高 跳 变 到 低 表 示 “0”， 每 次 跳 变 都 发 生 在 位 “17” 

或 “0” 周 期 的 中 间 。 这 个 方案 将 极 性 RZ er: 结合 起 来 。 它 通过 在 每 个 数据 位 引入 一 次 信和 号 
跳 变 Woe 自 时 钟 a 再 次 加 倍 信和 号 频率 ， 因 此 曼彻斯特 编码 需要 的 带宽 是 NRZ 直 要 人 宽 的 两 
倍 。 因此 ， 更 高 传输 速率 (如 100Mbps) 的 以 太 网 不 采用 曼彻斯特 编码 。 然 而 ， 在 较 低 速 版 本 的 802. 3 
(以 太 网 ) 和 JIEEE 802.4 ( 今 牌 总 线 )， 如 10BASE-T， 采 用 曼彻斯特 编码 就 是 看 中 它 的 自 同 步 优 热 

差分 曼彻斯特 编码 是 曼彻斯特 pt 变种 ， 但 性 能 要 超 过 后 者 。 在 差分 曼彻斯特 编码 中 ， 
“1” 要 求 信和 号 ee 分 与 前 一 信号 相同 , “0” 则 要 求 本 表面 的 相 改 ， 跳 变 总 是 发 生 在 信号 的 中 间 
这 种 方案 导致 “1” 需 要 一 次 跳 变 ,“0” Ce 这 是 极 性 RZ 与 极 性 NRZ-1 的 组 合 。 因 为 检 
测 信号 的 跳 变 上 ee : 幅 是 否 超 过 癌 定 国 值 要 可 靠 得 多 差分 曼彻斯特 编码 比 曼彻斯特 编码 具有 
更 好 的 错误 控制 性 能 。IEEE 802.5 ( 令 牌 环 LAN) 采用 差分 曼彻斯特 编码 

曼彻斯特 和 差分 曼彻斯特 两 者 都 没有 基线 漂移 与 直流 分 量 问题 ,但 是 与 极 性 NRZ 相 比 ， 它 们 必须 
加 们 信号 速率 。 它 们 的 sdr (2) 和 平均 信号 速率 NN 与 极 性 RZ 相同。 带宽 如 图 2- 12e 所 示 

双 极 性 交替 标记 反 转 ng Re 

在 AMI 编码 中 将 一 个 “0” 或 “ 空 ” 编 但 成 专 伏 ， ， “标记 ”编码 ge 正 的 或 负 的 电压 
如 图 2-11 中 所 示 。 伪 三 元 3 进 制 ) 是 AMI 的 变种 ， 0 “1” 代 表 震 伏 ,“ ”被 编码 成 一 个 正 电 扩 或 
负电 讨 。 通过 交 蔡 同一 位 值 的 电 斥 ， 直 流 分 量 得 以 平衡 是 机 所 丰 后- 放 来 潭 1 总 让 :元 中 

一 长 串 的 “0”， 那 么 这 种 方案 可 能 会 失去 同步 。 为 了 加 以 弥补 ，AMI 编码 器 会 在 连续 7 个 零 后 增加 一 
个 “1” 作 为 第 8 位 。 通 过 这 种 位 填充 ， 与 极 性 NRZ-S 中 使 用 的 方法 相 类 似 ， 总 的 线路 编码 比 源 代 码 长 平均 
不 到 1% 。 此 编码 被 T 载波 用 于 远 距 离 通信 ， 这 个 方案 的 两 个 优点 分 别 是 零 DC 分 量 和 能 够 更 好 地 进行 错误 
今 测 | oe 宽 如 图 2-12d 所 示 。sdr 和 信号 速率 与 极 性 NRZ 的 相同 。 与 极 性 NRZ 不 同 的 是 ， 即 使 有 一 个 长 
序列 位 “1” 或 位 “0”，AMI 也 不 存在 直流 分 量 问 题 ， 其 功率 密度 集中 在 信号 速率 MM2， 而 不 是 零 

为 a AMI 的 一 个 变种 称 为 改进 AMI 使 用 扰 码 ， 由 了 载波 和 下 载波 使 用 。 它 不 
在 原始 数据 中 增加 位 数 。 这 里 我 们 学 习 了 两 种 扰 码 方案 : 双 极 8 专 蔡 代 ( B87ZS) 和 高 密度 双 极 3 堆 
(HDB3)。B8ZS 编码 使 用 000VBOVB 蔡 换 8 个 连续 的 0， 其 中 V 表示 这 是 一 个 违反 AMI 编码 规则 的 非 
去 违 例 位 ，B 是 另外 一 个 按照 AMI 编码 规则 的 非 零 位 。HDB3 编码 既 可 以 使 用 000V 也 可 以 使 用 BOOV 
取代 4 pA 这 要 取决 于 最 后 更 换 后 的 非 零 位 数 。 如 果 是 奇数 ， 它 就 使 用 000V; 如 果 是 偶数 ， 
就 使 用 BO0V。， 使 用 这 一 规则 的 目的 就 是 在 每 次 替代 后 保持 偶数 个 非 零 位 

多 电 平 编码 : m 进 制 ,，n 电 平 (mBnL) 

多 电 平 编码 方案 的 目的 是 通过 在 信号 中 使 用 多 个 电 乎 代表 数字 数据 来 降低 信号 速率 或 者 信道 带宽 
标记 mBnl, 用 来 表示 编码 的 方案 “B” 意 味 着 二 进 制 数据 ; 字母 7 为 信号 中 电 平 的 数量 ; 字母 m 
为 二 进 制 数据 模式 长 度 ， 字 本 n 是 信号 模式 的 长 度 。 如 果 4 = 2， 就 是 用 B (二 进 制 ) ， 而 不 是 上 同 
样 ， 如 果 工 =3， 就 是 用 T (三 进 制 ); 如 果 上 =4， 就 使 用 Q (四 进 制 )。 因 此 ， 我 们 可 能 会 看 到 一 些 如 
2B1Q、4B3T 和 8B6T 等 的 多 电 平 编码 方案 。 

根据 标记 mBn4， 我 们 有 2” 种 二 进 制 数 据 模式 ，L" 种 信号 模式 。 如 果 2” = ， 则 所 有 的 信号 模式 
用 来 表示 数据 模式 。 如 果 2”< 4" ， 就 会 存在 比 数据 模式 殉 多 的 信号 模式 。 这 些 额 外 的 信号 模式 可 以 用 
于 预防 基线 漂 人 误 检 测 。 如果 2”>74"， 则 信号 模式 不 足以 表示 数据 模式 ， 从 而 无 法 完 
全 编码 全 部 的 二 进 制 数据 。 这 里 我 们 讨论 三 种 典型 的 方案 

2- 二 狂 市 ,1 =- 四 进 制 (2B1Q) : 2 位 数据 被 映射 到 一 个 有 4 个 电 平 的 信号 元 素 上 ， 如 表 2-3 所 示 
因此 sdr =1/2。 平均 波 特 率 计算 如 下 : cx Nxsdr = xNx1/2=N/4, 也 号 是 说 ， 等 于 位 速率 的 1/4. 
2B1Q 的 带宽 如 图 2- 12e 所 示 。 与 NRZ 相 比 ，2B1Q 只 需要 NRZ 所 用 带宽 的 一 半 。 换 名 话说 ， 在 相同 位 速 
率 下 ，2B1Q 能 够 携带 两 倍 NRZ 的 数据 率 。 但 是 ， 使 用 2BIQ 的 设备 比 使 用 NRZ 的 更 加 复杂 ， 因 为 2B10 
人 为 了 区 分 4 个 电 平 ,设备 需要 使 用 更 加 复杂 的 电路 。 这 种 编码 模式 

没有 元 余 的 信号 ， 因 为 2” =2 = 性 =4 。 综 合 业务 数字 网 (ISDN) 的 物理 层 就 使 用 这 种 编码 方案 。 
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表 2-3 ”2B1Q 编码 映射 表 














Dibit (2 位 ) 00 01 10 11 
如 果 前 一 个 信号 电 平 为 正 ， 下 一 个 信 号 电 平 = +1 +3 -1 -3 
如 果 前 一 个 信和 导电 平 沪 抽 ， 下 一 个 信号 电 平 = | =1 =3 +1 +3 








4B3T 和 8B6T: 线路 编码 4B3T 用 于 ISDN 的 基本 速率 接口 (BRI) ， 这 是 用 3 个 脉冲 表示 4 位 。8B6T 被 
100BASE -47 电缆 使 用 。 因 为 8B 意味 着 数据 模式 ， 而 6T 意味 着 信和 号 模式 ， 许 多 宛 余 信和 号 模式 可 以 用 于 直流 


平衡 、 同 步 和 4 背 误 检测 。 因 为 sdr 为 6/8， 平 均 波 特 率 变 成 3W8， 即 cxNxsdr= 二 xNx6/8 =3N8。 


无 自 同步 的 多 电 平 传输 三 级 电 平 (MLT-3) 

极 性 NRZ-1 和 差分 曼彻斯特 编码 两 者 部 是 二 电 平 传输 编码 ， 根 据 连 续 位 值 的 变化 来 编码 二 进 制 数 
据 。MLT-3 使 用 王 电 平 编码 三 进 制 数据 。 为 了 编码 位 “1”， 它 使 用 三 个 电 平 ，+ 1、0、-1， 四 个 跳 
变 ， 从 电 平 +1.、0、=1.、0 到 +1 依 次 形成 一 个 循环 。 电 平 + 1 表示 一 个 正 的 物理 电 平 ， 电 平 -1 表 
示 负 的 电 平 。 为 了 编码 位 “0”， 电 和 平 会 像 前 一 位 那样 保持 不 变 。 因 为 MLT-3 使 用 四 个 跳 变 完成 一 个 完 
整 周 期 ， 或 四 个 数据 元 素 转换 为 一 个 信 言 号 元 素 〈 信 和 号 模式 ) ，sdr 近似 于 1/4。 根据 S = cxNxsdr， 在 
最 差 的 情况 下 ，c =1， 波 特 率 变 成 为 S= cxNxsdr= 1 xNx1/4=N/4， 波 特 率 仅 为 数据 率 的 1M4。 这 
个 特点 使 MLT-3 适合 在 钢 电 线 上 以 更 低 的 频率 传输 。100BASE- TX 采用 MLT-3 ， 因 为 铜 电缆 仅 能 支持 
31. 25MHz 的 波 特 率 ， 但 数据 速率 是 125Mbps 

行程 长 度 受 限 编码 

I 长 度 以 避免 没有 跳 变 的 长 的 连续 位 流 0 如 果 将 极 性 
NRZ-1 添加 到 RLL 以 便 编 码 源 数据 ， 那 么 这 里 “1” 代 表 了 一 个 跳 变 和 “0” 代 表 没 有 跳 变 ， 行 程 就 是 
0 的 个 数 。RLL 使 用 两 个 参数 ， 其 中 以 表示 最 小 0 位 行程 ,表示 最 大 0 in 有。 办 此， 标记 RLL 就 
是 (d、Ah) RLL。RLL 的 最 简单 的 形式 是 (0，1) RLL。 用 于 某 些 硬盘 的 RLL 行业 标准 为 (2，7) 
RIL 和 (1，7) RLL。 它 们 的 编码 表 如 表 2-4 所 示 。 表 2-4c 的 (1,，7) RLL 将 两 位 数据 映射 成 三 位 
除了 四 位 (*，0，0，y) 序列 转化 为 (NOTx, xANDy, NOTy, 0, 0, 0) 外 ,一 对 位 (x,，y) 要 基于 规 
则 (NOTx, xANDy, NOTy) 进行 转换 


表 2-4 RLL 编码 的 例子 















































a) (0, 1) RLL b) (2, 7) RLL cj) (1, 7) RLL 
数据 (0, 1) RLL 数据 | 但， 列 BLL 数据 (1, 7) RLL 
0 10 11 1000 00 00 101 000 
1 11 10 | 0100 00 01 100 000 
| 和 | 000 | 000100 10 00 | 001 000 

| 010 100100 10 01 010 000 
011 001000 00 101 
0011 00001000 01 100 
0010 00100100 10 001 
| 11 010 
分 组 编码 


分 组 编码 〈 块 编码 ) 是 一 种 错误 检测 /校正 技术 ， 它 将 一 种 输入 序列 映射 为 男 一 种 更 长 的 序列 ， 
从 而 具有 更 好 的 误 码 性 能 。 使 用 信道 编码 对 误 码 性 能 的 改善 程度 可 用 编码 增益 来 评估 ， 即 描述 未 编码 
与 已 编码 数据 误 码 性 能 的 SNR 比值 。 由 分 组 编码 引入 的 宙 余 位 可 用 于 同步 和 错误 检测 ， 因 此 可 以 简化 
后 续 的 线路 编码 。 通 常 分 组 编码 是 在 线路 编码 之 前 进行 的 。 分 组 编码 用 做 错误 检测 编码 时 ， 可 以 在 接 
收 端 检 测 传输 错误 并 丢掉 错误 的 帧 。 分 组 编码 可 以 表示 为 mB/nB， 这 里 一 个 m 位 流 编码 成 n 位 码 字 


茧 
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分 组 编码 一 般 有 三 个 步骤 : 分 段 、 编 外 和 连接 合并 。 例 如 ， 一 个 位 流 分 段 为 严 位 分 段 ， 这 里 编码 成 
位 码 字 。 最 后 这 些 nn 位 码 字 被 合并 连接 起 来 形成 一 个 新 的 位 流 

分 组 码 通常 是 由 硬 决 策 算法 进行 解码 ， 目 前 已 经 广泛 地 应 用 于 许多 通信 系统 中 。 这 里 要 学 习 了 两 种 
分 组 编码 : 4 个 二 进 制 /5 个 二 进 制 (4BZ5B) 和 8 个 二 进 制 /10 个 二 进 制 (8BZ10B) 

4B/5B 分 组 编码 将 每 一 个 4 位 分 组 转换 成 5 位 ，4B/5B 编码 将 一 组 4 位 映射 成 一 组 5 位 ， 如 表 2-5 
所 示 ， 这 里 5 位 码 字 最 多 只 有 一 个 引导 零 、 最 多 两 个 后 补 0。 如 果 任 何 5 位 码 字 与 任何 其 他 5 位 码 字 合 
并 ， 产 生 的 二 进 制 元 组 将 最 多 只 有 三 个 连续 的 0， 经 过 4B/5B 编码 器 后 不 会 出 现 一 长 串 的 0。 此 外 , 来 
自 有 效 数 据 字 的 5 位 字模 式 可 以 智能 地 选择 以 便 平 衡 信 号 中 的 数字 “1” 和 “0”， 从 而 保证 在 线路 编 
码 中 有 足够 数量 的 跳 变 。 因 为 数据 空间 从 16 个 4 位 字 扩 展 到 了 32 个 5 位 码 字 ， 所 以 提供 16 个 额外 的 
码 尝 用 于 其 他 用 途 ， 比 如 控制 字 ， 可 以 表示 帧 的 开始 和 结束 。 有些 保留 字 用 于 错误 检测 。 因 为 没有 有 
效 的 数据 字 可 以 转化 为 这 些 保留 字 ， 所 以 如 果 在 接收 方 出 现 了 一 个 保留 字 ， 那 么 就 检测 到 传输 错误 

表 2-5 4B/5B 编码 表 









































名 称 4B 5B | 描述 名 称 4B SB 描 述 
0 0000 11110 六 进 制 数 据 0 C 1100 11010 十 六 进 制 数据 C 
1 0001 01001 六 进 制 数据 1 D 1101 11011 十 六 进 制 数据 D 
2 0010 “| 10100 上 六 进 制 数据 2 E 1110 11100 | 六 进 制 数据 E 
3 0011 10101 六 进 制 数 据 3 | 11101 六 进 制 数据 下 
4 | olo0 01010 上 六 进 制 数据 二 0 n/a 00000 l 静止 《信号 丢失 ) 
5 0101 O1011 六 进 制 数据 5 I n/a 11111 空闲 
6 0110 | 01110 | 十 六 进 制 数据 6 | j i to00 | 起 始 和 
7 0111 01111 上 六 进 制 数据 7 K n/a 10001 起 始 殷 
8 1000 10010 上 六 进 制 数据 8 | 下 n/a 01101 结束 
9 1001 10011 上 六 进 制 数据 9 | R n/a 00111 重 置 
A 1010 10110 -六 进 制 数据 A S n/a 11001 设置 
B | 1011 10111 [六 进 制 数据 8 |‖ n/a 00100 停止 























4B/5B 编码 通常 与 极 性 NRZ-1 编码 一 起 使 用 ， 如 图 2- 13 中 所 示 体 系 结构 。 人 额外 的 位 “1” 为 了 同步 
产生 一 次 额外 的 跳 变 。 预 定义 的 编码 表 将 4 位 转换 成 5 位 ， 每 位 至 少 跳 变 两 次 。 在 应 用 了 4B/5B 分 组 编 
码 后 ， 输 出 的 位 速率 增加 了 25% 。4 位 码 字 以 100Mbps 速率 的 发 送 ， 现 在 需要 125Mbps 来 发 送 新 的 5 位 
码 字 。4B/5B 的 方法 避免 NRZ-I 中 的 同步 问题 ,但 它 仍 然 有 直流 分 量 问 题 没 有 解决 。 基 本 频率 只 有 数 
字数 据 率 的 M4， 从 而 至 少 需要 四 位 产生 一 个 完整 的 周期 。 答 出 信号 可 以 很 容易 地 通过 CAT-5 电线 传输 。 


分 组 编码 线路 编码 










发 送 的 带 有 同步 
的 数字 信号 





信号 接收 器 
接收 的 带 有 同步 
的 数字 信号 


图 2-13 将 4B/5B 编码 与 NRZ-I 编 码 结合 后 的 体系 结构 
更 复杂 的 分 组 编码 方法 ， 如 8B/A10B 和 64B/66B 一 般 应 用 于 高 速 传输 。 这 些 复杂 的 编码 技术 可 以 
平衡 线路 上 传输 的 “0” 和 “1” 的 数量 ， 计 算 哪 里 有 较 多 的 “1” 或 “0” 并 在 运行 中 根据 哪 种 位 传 
得 得 更 加 频繁 来 选择 适当 的 编码 ， 既 然 10 位 码 字 具 有 最 多 一 个 额外 的 1 或 0 的 不 平衡 ,计数 仅 包 含 1 
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位 称 差距 (RD) 。 每 个 传输 的 码 字 更 新 RD， 这 里 RD + 表示 1 比 0 多 的 情况 ，RD - 表示 相反 
此 外 ， 更 宽 的 代码 空间 也 允许 在 物理 层 具有 较 高 程度 的 错误 检测 能 力 。 

在 结束 本 节 之 前 ， 我 们 重申 前 面 介绍 过 的 8BZ10B 和 64B/66B 码 是 最 简单 的 检测 / 纠 错 编码 ， 主 要 
用 于 通信 信道 更 加 可 靠 、 品 声 较 少 的 有 线 短 距 通 信 中 。 具 有 很 高 噪声 的 信道 ， es 甫 常 就 需 
费 更 强大 、 更 长 长 度 的 编码 。 在 这 种 应 用 中 ， 编 码 长 度 可 能 高 达 数 千 或 数 万 。 此 外 ， 与 用 于 解码 8B/ 
10B 的 硬 决策 算法 相 比 ， 在 概率 域 ， as 








开源 实现 2.1: 8B/10B 编码 器 

综述 

8B/A10B 已 经 广泛 地 被 多 种 高 速 数据 通信 标准 (包括 PCT Express、IEEE 1394b、 串 行 ATA、DVI/ 
HDMI 和 千 光 以 太 网 等 ) 所 采纳 ， 用 于 线路 编码 。 它 将 8 位 符号 映射 为 具有 人 受 限 不 一 致 的 10 位 符号 ， 
省 人 和 两 种 重要 的 特性 。 一 种 是 DC 平衡 属性 ， 即 对 于 给 定 的 数据 流 提 供 同 样 数量 的 0 和 1， 以 

避免 电荷 在 某 种 介 质 上 积聚 起 来 另 一 种 属性 是 最 大 行程 ， 即 最 大 数量 的 连续 0 或 1， 这 就 提供 足够 状 

态 变 化 用 于 时 钟 同步 。 一 个 开源 的 例子 可 以 从 OpenCores 网 站 http: //openecores. org 上 得 到 ， 它 给 出 了 
8B/10B 编码 器 和 解码 器 在 VHDIL 编码 中 的 实现 ， 这 里 8B/10B 编码 器 是 由 5B/6B 编码 器 和 一 个 3B/4B 
编码 器 实现 的 

框图 

图 2-14 中 描述 了 OPENCORE 8B/10B 编码 器 的 体系 结构 ， 它 接收 由 H、G、F、E、D、C、B、A 
位 构成 的 8 位 并 行 原始 (本 编码 的 ) 数据 字 节 。A 是 最 不 重要 的 位 ， 还 有 一 个 输入 位 ，K， 用 来 指示 
应 该 将 字符 输入 编码 成 12 个 允许 控制 字符 之 一 。 

















byte elk 并 行 数据 宇和 他 控制 
一 li 
适配器 接口 
ck A B CD E F GH K 
5B/i6B 消 数 3B/4B 也 数 

















| 不 一 致 性 控制 
ABCDE FGH 
编码 交换 器 
ck abedeifeh)j 
二 进 制 线路 到 串 行 (化) 器 
图 2-14 8B/A10B 编码 器 的 框图 
代码 将 一 个 8 位 并 行 数据 的 输入 映射 为 带 有 两 个 编码 器 的 10 位 输出 。 一 个 是 5B/6B 编码 器 ， 它 将 
5 个 输入 位 (A、B、C、D、E) 映射 为 一 个 6 位 组 (a、b、c、d、e 和 il)， 另 一 个 是 3B/4B 编码 器 ， 
它 将 剩 下 的 3 位 (F，G 和 日 ) 映射 为 一 个 4 位 组 (f，g、h 和 j)。 
为 了 减少 输入 模式 数 ， 函 数 模块 将 多 个 输入 位 〈 元 ) 组 成 类 。 例 如 根据 前 4 位 (A、B、C、D)， 
位 码 字 可 以 划分 为 4 类 (104、LlI3、122、140),， 不 一 致 性 (差距) 控制 产生 控制 信号 给 编码 交换 器 ， mp 
选择 正 的 还 是 负 的 不 一 致 性 (差距) 编码 ， 该 编码 交换 器 重用 分 类 结果 并 在 每 个 时 钟 输出 编码 过 的 位 ， 
数据 结构 
8B/10B 编码 器 的 数据 结构 主要 是 8 输入 位 和 10 输出 位 。 将 所 有 的 输入 和 输出 同步 到 clk: 1) K、 
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G 和 下 是 在 clk 的 下 降 沿 内 部 锁定 的 ; 2) j、h、 clk 的 下 降 沿 更 新 的 ; 3) E、D、C、B 
和 A 是 在 clk 的 上 升 沿 内 部 锁定 的 ; 4) i、e、d、c、b 是 在 clk 的 上 升 洛 更 新 的 。 

算法 实现 

在 OPENCORE 8B/10B 项 目 中 , 8B/10B 编码 器 的 VHDL (硬件 描述 语言 ) 实现 是 在 8bl0_ enc. vhd， 
而 enc 8bl0b” TB. vhd 是 编码 器 的 测试 平台 (testbench) 文件 ,图 2-15 中 显示 了 5B/6B 函数 模块 的 代 
码 分 段 ， 这 是 一 个 由 多 个 NOT、AND 和 OR 门 组 合 而 成 的 组 合 人 逻辑。 其 他 模块 也 是 从 这 些 简单 的 带 辑 门 
构造 而 来 的 ， 整 个 8B/10B 编码 器 的 实现 不 需 村 说 各 旬 的 半 未 经 站 例如 ， 加 法 和 乘法 运算 。 因 为 整 
个 8BZ10B 编码 器 代码 太 人 繁琐 了 ， 建 议 读者 参见 8b10 enc. vhd 学 习 有 关 计 算 每 一 位 的 细节 ， 
L40 <= AI aia BI and CI and DI ; i 

Four 0’s 
L04 <= rot AI and not BI and not CI and not DI ; 
=s QO,0i6 
-- One 1 and three 0's 





L113 <= (not AI and not BI and not CI and DI) == 0.,0,0,1 
or (not AI and nct BI and CI and not DI) = Ol 
or (not AI and BI and not CI and not DI) -= i106,6 | 
or (AI and not BI and not CI and not DI)y -- 1,0,0,0 


= Three 1'S and one 0 








L311 <= (AI and BI and C1i and net DI) = 二 i ee WR] 
or (AI and BI and not CI and DI) = 去 迁 / 守 性 漠 
or (Xl and not BL and Ci and DI) = T0171 
or (not AI and BI and CI and DI) ，; == 0 4,1 

-— Two 1s and tw 0’s 

L22 & {not 人 和 LI amd net BI ana CI and DI) -= O50; Wi 
or (net AL and BI and CGI and net DI) = 三 Or Bd 
or (AI and BI and riot CI and not DI) == pln0sd 
or (AI and not BI and not CI and DI) == ,Dd 
or (not AI and BI and not CI and DI) =s= 和 0 十, 避 , 了 访 

or (Al QQ not BI and CI and net DI) -= 10, 1,0| 





图 2-15 5B/6B 羡 数 的 代码 段 
练习 
如 图 2-14 所 示 ， 在 8bl10 ence.vhd 中 找到 与 3B/4B 编码 交换 相关 的 代码 段 ， 并 指出 控制 输出 定时 
的 这 行 代码 ， 即 clk 信号 的 下 降 沿 或 上 升 洛 


2.4 数字 调制 和 多 路 复 用 

在 电信 和 网络 和 计算 机 网 络 中 ， 需 要 利用 数字 调制 将 数字 位 流转 换 成 带 通 波形 以 便 通 过 模拟 带 通信 
道 传 输 。 审 通 波形 ， 即 一 种 通 带 信号 ， 是 一 种 从 数字 位 流 的 振幅 、 相 位 、 频 率 调 制 过 的 正弦 模拟 载波 
es 调制 ， 或 简称 为 数字 调制 ， 与 数字 基带 调制 或 线路 编码 相对 。 调制 信号 或 
原始 数字 信号 两 者 都 可 能 会 进一步 多 路 复 用 到 一 个 物理 信道 上 以 便 更 好 地 利用 信道 。 我 们 首先 介绍 
本 的 数字 调制 方案 ， 包 括 幅 移 键 控 (ASK) 、 相 移 键 控 (PSK) 、 频 移 键 控 (FSK) 、 混 合 正 交 振幅 调制 
(QAM)。 在 此 基础 上 ,我们 提出 棒 种 基本 的 多 路 复 用 方案 : 时 分 多 路 复 用 (TDM) 和 频 分 多 路 复 用 
(FDM) 我们 将 在 2.5 节 中 讨论 码 分 多 路 复 用 技术 (CDM) 和 其 他 几 种 高 级 技术 。 


2.4.1 通 带 调制 


通 带 调 制 是 一 个 分 为 两 步 的 处 理 过 程 。 它 根据 所 使 用 的 调制 方案 ， 例 如 ASK、PSK 、FSK 或 QAM 
ed 导 转 换 成 基带 复合 值 信 号 ， 然 后 这 些 基 带 波形 乘 以 一 个 具有 更 高 载波 频率 的 正弦 载 
波 信号。 删除 虚拟 成 分 ， 结 果实 值 通 带 信号 就 准备 好 传输 了 。 前 者 通常 称 为 数字 调制 ， 而 后 者 是 由 混 
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频 完成 的 。 这 里 重点 强调 了 数字 调制 ， 如 图 2- 16 所 示 。 与 在 2.3 节 中 为 基带 传输 介绍 的 线路 编码 不 
同 ， 信 号 速率 $=N x1/r。 这 里 不 考虑 情况 因子 。r 值 是 模拟 信号 可 以 携带 的 数据 元 素数 ，N 为 数据 速 
率 。S 是 调制 之 前 的 数字 信号 速率 . 
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图 2-16 数字 调制 

在 数字 通信 中 ， 基 带 数 字 信 和 号 通常 由 更 高 频率 的 正弦 载波 承载 以 便 能 在 更 高 频 信 道上 传输 。 何 谓 
正弦 载波 ， 以 及 载波 是 如 何 承 载 消 息 的 ?在 带 通 通信 中 ， 发 送 端 必须 产生 一 个 高 频 信 和 号， 称 为 载波 ， 
用 来 承载 数据 信和 号。 接收 端 调谐 到 载波 频率 以 便 接 收 来 自发 送 端的 “载波 承载 的 ”数据 信和 号。 载波 的 
各 个 方面 或 在 振幅 、 频 率 和 相位 方面 的 更 改 都 可 以 用 来 表示 数字 数据 。 使 用 数字 数据 技术 修改 载波 的 
一 个 或 多 个 方面 称 为 调制 或 移 键 。 它 们 分 为 幅 移 键 控 (ASK) 、 频 移 键 控 (FSK) 、 相 移 键 控 (PSK) 
存在 一 种 既 包 括 振幅 又 包括 相位 的 混合 调制 技术 ， 称 为 正 交 振幅 调制 (QAM) 。QAM 比 ASK 、FSK 和 
PSK 更 有 效率 ， 因 为 它 利用 更 多 的 方面 。 此 外 ， 载波 各 个 方面 的 改变 (如 相 变 ) ， 也 用 于 差分 PSK 
(DPSK) 中 ， 

星座 图 

星座 图 是 用 于 定义 从 数字 数据 模式 到 信号 星座 点 映射 的 一 种 工具。 图 中 的 星座 点 用 于 定义 信号 的 
振幅 与 信号 元 素 的 相位 。 这 个 图 应 用 于 所 有 数字 调制 中 。 图 2- 17 是 一 种 使 用 了 两 个 载波 的 4 -PSK 的 
星座 图 ， 其 中 一 个 载波 沿 着 实 轴 ， 是 一 个 同 相 轴 ， 另 一 个 沿 着 虚 轴 是 正 交 轴 。 在 图 2-17 中 ， 可 以 使 
用 4 个 星座 点 定义 4 个 不 同 的 元 素 以 便 映 射 到 2 位 的 4 种 数据 模式 .图 2-18 说 明了 数字 调制 中 的 四 种 





基本 调制 一 一 ASK 、FSK 、PSK 、DPSK。 接 下 来 ， 我 们 将 逐一 介绍 其 中 每 一 种 以 及 QAM。 
让 0 


| Q 分 量 的 振幅 


| y I 
一 ~ 同 相 载 波 


1 分 量 的 振幅 











图 2-17 星座 图 : 2 位 的 星座 点 : bb 
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图 2-18 四 种 基本 调制 的 波形 
幅 移 键 控 
幅 移 键 探 技术 使 用 不 同 振幅 的 载波 来 表示 数字 数据 。 通 常 在 ASK 中 使 用 两 个 振幅 : 一 个 用 于 表示 
“1”， 而 另 一 个 用 于 表示 “0”， 在 调制 期 间 载 波 的 频率 和 相位 都 不 改变 。 具 有 两 个 振幅 ASK 称 为 二 进 
制 ASK (BASK) ， 或 开关 键 控 (OOK) 。 它 的 星座 图 如 图 2- 19a 所 示 。 只 使 用 了 一 种 载波 即 同 相 载波 ， 
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1 
0 | 
全 = 
0 *] 
a) ASK (OOK) 的 星座 : b， b) 2-PSK (BPSK) 的 星座 : b， 
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d) 8-PSK 的 星座 : bbib， 





e) 16-PSK 的 星座 : bb1b,b， 


图 2-19 ASK 和 PSK 的 星座 图 
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零 伏 电 奈 指示 位 “0”， 而 正 电 压 表 示 位 “1”， 它 的 调制 波形 如 图 2- 18 所 示 ， 这 里 单 极 性 NRZ 线路 编 
码 顺 用 来 编码 数字 数据 并 且 产 生 数 字 信 号 调 i 根据 BASK, r=1 和 S$ =Nxlr=AN。 信号 速率 S$ 
等 于 数据 速率 VN， 如 果 信 号 带宽 与 信号 速率 成 正比 ， 就 可 以 获得 带宽 BW = (1+d)5， 其 中 d 是 0~1 
的 因子 ， 具体 取决 于 调制 和 过 滤 处 理 过 程 。 虽然 载 波 是 正弦 信号 , 但 ASK 调制 信号 是 一 种 非 周 期 模拟 
言 号 。 根 据 图 2- 1b， 带 宽 是 一 种 用 绕 载 波 频 率 的 有 限 范围 的 频率 ， 如 图 2-20a 所 示 。 实 现 ASK 的 机 制 
如 图 2-20b 所 示 。 为 了 简化 实现 ， 利 用 乘法 器 将 基带 波形 〈 一 种 单 极 性 NRZ 的 输出 ) 乘 以 本 地 振 水 融 
的 载波 以 获得 一 种 调制 信号 。 这 种 乘积 称 为 混 频 ， 就 是 通 华 调 制 的 第 二 步 


/一 1， 信号 速率 S=NN， 位 速率 ) 




















- 进 制 ASK 的 带宽 yi 
BW=(11d)S Cd Ui 
设 单 极 性 NRZ 
”| - 进 制 幅 移 键 控 (BASK) 
| / 四 
0 -一 一 + 上 本 地 振 i NAA 
| 水 器 载波 频 涵 / 
a) BASK 的 带宽 bp) BASR 的 实现 
图 2-20 BASK 的 带宽 和 实现 
频 移 键 控 


频 移 键 控 技 术 使 用 载波 频率 来 表示 数字 数据 。 换 名 话说 ， 将 载波 频率 更 改 为 表示 数字 信和 号 的 值 
最 简化 的 频 移 键 控 方 案 采 用 “1” 作 为 标记 频率 , “0” 作 为 空 频率 . 图 2-18 显示 了 二 进 制 频 移 键 控 
(BFSK) 的 波形 ， 以 及 与 其 他 移 键 控 技术 的 对 比 。 图 2-21a 显示 了 BFSK 的 频谱 ， 在 两 种 显著 不 同 的 频 
率 fi、/ 分 别 用 来 表示 “0” 和 “1” 

在 BFSK 中 ， 位 元 素 的 数量 与 信号 元 素 的 数量 之 比 等 于 1， 即 r=1,， 信 和 号 速率 $=Nx1/r=N。 如 
果 认 为 BFSK 技术 是 具有 不 同 频 率 的 两 种 BASK 方案 的 结合 ， 那 么 每 个 频率 的 带宽 就 是 SC1+d) .两 个 
中 心 频率 之 差 为 2Af。 频 率 之 差 必须 大 于 以 频率 fi 为 中 心 一 半 的 带宽 与 频率 .六 为 中 心 一 半 的 带宽 之 和 ， 
即 S(1+d)。 因 为 4d 是 0~1 的 一 个 系数 ， 在 最 坏 的 情况 下 4L=1， 那 么 就 有 2Ah>253， 即 Af=S。 这样 
就 能 保证 两 个 信号 的 频谱 不 重 肆 ， 因 此 信和 号 在 频 域 内 互 不 干扰 ，BFSK 调制 信号 的 总 带宽 为 BW =3 
(1+d) +2Af， 如 图 2-21a 所 示 。 

BFSK 的 一 个 简化 实现 方案 如 图 2-21b 所 示 ， 其 中 电压 控制 振荡 器 (VCO) 用 来 改变 载波 的 频率 ， 
FSK 机 制 的 输入 是 一 种 映射 为 压 控 振荡 器 (VCO) 输入 电压 的 单 极 性 NRZ 信号。 频 移 键 控 及 其 变种 、 
















最 小 频 移 键 控 (MSK) 和 音频 频 移 键 控 (AFSK) ， 应 用 于 CSM 移动 电话 标准 和 呼叫 ID 以 便 传 达 信 息 。 
全 1， 信 号 速率 S=Y (MY， 位 速率 ) 
二进制 FSK 的 带宽 压 控 振 荡 器 (VCO) jh 
BW= (1+4) S+2Af 频率 : 户 关 
说 S(l+d) Ss(l+d) hdl 
| ja - 进 制 频 移 键 控 (BFSK) 
| 六 | h 
0 + + 上 一 十 一 一 
| 一 2A/ 一 一 频率 EL 
BW=S(1+q)+2Af 部 ) 振荡 1 
a) BFSK 的 带宽 b) BFSK 的 实现 
图 2-21 BFSK 的 带宽 和 实现 
相 移 键 控 


相 移 键 控 技术 通过 调制 载波 的 相位 将 相同 数量 的 位 编码 成 一 个 符号 。 换 句 话 说 ， 载 流 的 相位 用 来 
表示 数字 数据 。 在 键 控 中 ， 载 波 的 振幅 和 频率 保持 不 变 。 接 收 器 通过 将 有 限 数 日 的 相位 映射 成 有 限 数 
日 的 位 模式 ， 可 以 从 接收 到 的 信和 号 取出 数字 信和 号. 

用 于 m-PSK， 如 2-PSK、4-PSK、8-PSK 、16-PSK 的 星座 图 ， 如 图 2-19 所 示 ， 图 中 星座 点 均匀 地 围 
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绕 着 圆圈 放置 。 在 这 些 PSK 星座 图 中 ,只 有 相位 的 不 同 。 根 据 图 2-19 所 示 ， 当 其 余 的 m- PSK 使 用 两 


个 载波 ， 既 使 用 同 相 载 波 也 使 用 正 交 载波 ， 我 们 会 发 现 BPSK 只 使 用 一 个 载波 ， 即 同 相 (in- phase) 载 
波 。 这样 的 布置 有 助 于 PSK 取得 最 大 的 相位 隔离 并 避免 干扰 。 星 座 点 的 数目 是 2 的 短 ， 因 为 数字 数据 


通常 按 二 进 制 位 发 送 。 

二 进 制 相 移 键 控 (BPSK): BPSK 是 仅 使 用 一 个 载波 ( 同 相 (in- phase) 载波 ) 的 最 简单 的 PBK。 如 
图 2-19b 所 示 的 星座 ， 两 个 不 同 的 相位 表示 二 进 制 数据 ; 相位 0? 为 位 “1 ”而 相位 180° 为 位 “0”。 应 用 极 性 
NRZ 线路 编码 器 以 便于 BPSK 的 实现 ， 如 图 2-22b 所 示 。 极 性 NRZ 信和 号 的 正 电 压 并 不 改变 载波 的 相位 ， 而 极 
性 NRZ 数字 信和 号 的 负电 奈 会 将 载波 的 相位 转换 180?， 即 反 相 。BPSK 技术 对 噪声 的 免疫 力 高 于 BASK， 因 为 
信号 的 振幅 在 过 到 噪声 时 比 信 号 的 相位 更 容易 降级 。 此 外 ,BPSK 仅 使 用 一 个 频率 ， 而 BFSK 使 用 两 个 频率 
因此 BPSK 性 能 上 超越 BFSK。BPSK 的 带宽 与 BASK 相同 ,但 小 于 BFSK， 如 图 2-22a 所 示 

/=1， 信 号 速率 S=N (N， 位 速率 ) 
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a) BPSK 的 带宽 b) BPSK 的 实现 

图 2-22 ”BPSK 的 带宽 和 实现 

正 交 相 移 键 控 (QPSK): QPSK 是 使 用 两 个 载波 的 调制 ， 一 个 同 相 载波 和 一 个 正 交 调制 载波 ， 以 便 
携带 两 个 序列 数字 数据 。 图 2-23 阐明 了 一 个 QPSK 的 简化 实现 : 它 可 以 比喻 成 将 两 种 截然 不 同 的 、 相 
位 差 为 90° 的 BPSK 调制 。 在 图 2-23 中 ， 一 个 11000110 位 流 首先 分 成 两 个 均匀 的 子 流 。 其 中 每 一 个 都 
ar NRZ-L 线 路 编码 吾 处 理 以 便 生 成 一 个 调制 信号 。 其 中 一 个 将 同 相 载波 调制 成 一 个 1 载波 ( 同 
相信 号 ) ; 另 一 个 将 正 交 载波 调制 成 一 个 Q 信号 〈 正 交 信 号 ) 。 将 工 信 号 和 QQ 信号 合并 产生 一 个 QPSK 信 
号 引信 的 3 元 素 可 能 有 四 个 相位 ，45” 、135° 、- 45?、 135° 之 一 因此 一 个 二 进 制 位 流 11000110 转 
化 成 一 个 信号 。1 信号 、Q 信号 和 QPSK 的 波形 如 图 2-24 所 示 。 实 轴 上 的 振幅 将 一 个 余弦 波 载波 调制 为 I 
言 抱 ， 而 将 虚 轴 上 的 振幅 将 一 个 正弦 载波 调制 为 0 信号 。 接收 需 收 到 的 信号 通过 匹配 滤波 顺 、 取 样 器 、 
决策 装置 (设备 ) 、 多 路 复 用 融 的 处 理 恢复 为 原始 数据 。QPSK 将 两 个 数据 元 素 ( 两 位 ) 编码 成 一 个 信号 
元 素 。 这 使 得 该 项 技术 的 数据 处 理 速率 为 BPSK 的 两 倍 。 在 接收 到 的 QPSK 信号 上 会 出 现 相 位 延迟 ， 因 此 
接收 端 时 钟 必须 与 发 射 器 的 时 钟 同步 。 此 外 ， 这 种 所 谓 的 多 普 勒 偏 移 (Doppler shift) 会 导致 相对 频率 的 
仿 置 。 由 于 信道 避 致 的 相位 延 公 、 频 率 偏 移 必须 在 接收 涡 由 精确 调整 的 正弦 函数 所 补偿 。 电 缆 系统 标准 ， 
数据 有 线 电 视 服 务 接 口 规范 (DOCSIS)， 指 定 QPSK 或 16- QAM 用 于 上 上 行 调制 。 


























11000110 
- 进 制 位 流 
正 交 ( 异 相 ) 








模拟 信号 : Q 
图 2-23 ”QPSK 的 简化 实现 
差分 相 移 键 控 (DPSK): DPSK 是 PSK 的 一 个 变种 。 这 里 ， 将 位 模式 映射 为 信号 相位 的 变化 。 这 种 方案 
伏 大 地 简化 了 调制 、 解 调 设备 的 复杂 性 。 差 分 二 进 制 相 移 键 控 (DBPSK) 和 DQPSK 的 波形 如 图 2-25 所 示 
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图 2-25 DBPSK 和 DQPSK 信号 

在 DBPSK 调制 中 ， 如 果 信 号 的 相位 发 生 了 变化 ,那么 接 下 来 的 信号 就 代表 位 1; 否则 为 0。 在 DQPSK 
调制 中 ， 接 下 来 的 2 位 是 根据 信号 相位 的 变化 来 决定 的 。 如 果 没 有 相位 变化 ， 那 么 后 两 位 就 是 00。 如 果 信和 号 
相位 变化 本 4， 后 面 两 位 就 是 01。 如 果 信 号 相位 的 变化 为 -4， 那么 后 面 两 位 就 是 10。 如 果 信 和 号 的 相位 变 
化 为 +， 则 后 面 两 位 就 是 11。 由 于 DPSK 信号 解 调 器 不 需要 参考 信号 ， 所 以 调制 解 调 器 的 简化 设计 就 必然 会 
导致 更 高 的 错误 概率 。 然 而 ， 可 以 通过 稍微 提高 信 噪 比 来 克服 这 一 缺点 。 因 此 ，DPSK 广泛 地 应 用 于 Wi- 珀 
无 线 通信 标准 中 。 

正 交 振幅 调制 

正 交 振幅 调制 (QAM) 通过 改变 载波 的 振幅 和 相位 来 形成 不 同 信 和 号 元 素 的 波形 。QAM 使 用 不 同 幅度 等 

、 同 相 载 波 、 正 交 载 波 ， 因 此 它 是 ASK 和 PSK 的 一 种 组 合 。 由 于 使 用 多 种 上 述 参 数 来 表示 信号 中 的 多 个 
位 ， 所 以 使 用 QAM 比 使 用 ASK 和 PSK 更 容易 实现 更 高 的 传输 速率 。 举 例 来 说 ， 两 个 不 同 的 振幅 和 两 个 不 同 
相位 ， 可 以 用 来 代表 四 种 组 合 的 2 位 模式 。 一 个 组 合 可 以 代表 一 个 符号 。 因 此 ,一 种 2" 个 组 合 的 符号 可 以 
一 次 携 涡 入 位 数据 。QAM 需要 至 少 两 个 振幅 和 两 个 相位 。 

像 QPSK 一 样 ，QAM 使 用 相位 差 为 90? 的 两 个 正弦 载波 表示 。QAM 采用 两 种 类 型 的 星座 图 : 圆 形 
(环行 的 ) 和 撼 形 。 图 2-26 显示 了 多 个 圆 形 的 星座 图 ，4-QANM 的 星座 图 与 QPSK 的 相同 。 图 2-27 显示 
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a) 环形 星座 图 b) 环形 星座 图 ¢) 环形 星座 图 
4-QAM AN 8-QAM babib, 16-QAM:p,bibsh, 


图 2-26 环形 星座 图 


4 


60 荔 2 草 





的 是 矩形 星座 图 ， 如 4-QAM 、8-QAM 、16-QAM .在 图 2-28 中 ,一 个 64-QAM 抢 形 星座 网 代表 64 种 不 
同 的 振幅 和 相位 的 组 合 。 这 种 调制 每 个 符号 可 以 传输 6 位 。 然 而 ， 增 加 组 合 数量 会 使 编码 和 解码 电路 
更 加 复杂 ， 当 将 这 么 多 组 合 打包 到 一 个 符号 中 时 就 更 难以 区 分 两 种 组 合 了 。 由 于 调制 信号 容易 出 错 ， 
所 以 使 用 这 种 调制 的 传输 就 需要 额外 的 错误 检测 技术 。 
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图 2-28 算 形 星座 图 64-QAM: bbib,bsbbs 
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在 QAM 发 射 机 上 ， 将 一 个 数据 流 分 成 两 个 子 流 。 每 个 子 流 是 由 ASK 调制 怖 处 理 的 。I 信道 的 输出 
乘 以 余下 丽 数 ， 而 Q 信道 的 输出 乘 以 正弦 函数 。 最 终 的 QAM 信号 是 通过 工 信 号 和 Q 信号 相 加 产生 的 。 
QAM 接收 机 逆向 处 理 以 便 获得 原来 的 数据 。DOCSIS 下 行 调制 采用 64- QAM 或 256- QAM， 上 行 调制 则 
采用 QPSK 或 16- QAM。 此 外 ， 新 的 DOCSTS 2.0 和 3.0 的 上 行 调 制 也 使 用 32- QAM、64- QAM 和 
128- QAM, 


2.4.2 多 路 复 用 

传输 介质 中 的 物理 信道 可 提供 大 于 数据 流 所 需要 的 带宽 。 为 了 有 效 地 利用 信道 容量 ， 就 要 应 用 多 
种 信道 接 人 方案 。 利 用 信道 接 入 方式 ， 多 个 收发 天 就 可 以 共享 同一 传输 介质 。 信 道 接 人 方式 主要 有 王 
种 类 型 : 电路 模式 、 分 组 模式 和 全 双 工 模式 。 多 路 复 用 是 物理 层 使 用 的 电路 模式 方法 之 一 。 链 路 层 上 
的 信道 接 入 方式 是 根据 在 媒体 访问 控制 (MAC) 子 层 中 的 多 路 访问 协议 的 分 组 模式 方法 。 全 双 芽 方法 
用 来 将 上 行 和 下 行 信 道 分 阳 开 。 这 里 不 介绍 分 组 模式 和 全 双 工 的 方法 。 

亿 有 多 路 复 用 髓 (MUX) 和 解 复 用 器 (DEMUX) 的 多 路 复 用 系统 ， 如 图 2-29 所 示 。 图 2-29 显示 
了 来 日 多 个 数据 源 的 数据 流 复 用 以 及 通过 共享 物理 信道 进行 传输 。 多 路 复 用 技术 包括 TDM 、FDM 、 波 
分 复 用 (WDM) 技术 、 码 分 多 址 (CDMA ) 和 空间 多 路 复 用 (SM)。 表 2-6 显示 信道 接 入 及 其 相应 的 
多 路 复 用 方法 。 这 里 我 们 仅 介绍 基本 方法 ， 而 将 CDMA 留 到 2. 5. 1 节 中 介绍 。 


多 用 户 : 使 用 经 过 多 
条 线路 的 多 个 子 信道 
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一 个 物理 信道 :多 个 
逻辑 子 信 道 


信和 号 接收 器 








图 2-29 多 个 用 户 经 过 多 个 子 信道 所 使 用 的 物理 信道 
表 2-6 信道 接 入 方案 和 多 路 复 用 的 映射 


多 路 复 用 


信道 接 入 方案 


应 用 





FDM ( 频 分 多 路 复 用 ) 


FDMA ( 频 分 多 路 接 人 ) 


1G 蜂窝 (移动) 电话 





WDM ( 波 分 多 路 复 用 ) 


WDMA ( 波 分 多 路 接 入 ) 


光纤 














TDM (时 分 多 路 复 用 ) TDMA (时 分 多 路 接 入 ) GSM 电话 
SS ( 扩 频 ) CDMA (但 分 多 路 接 入 ) 39 移动 电话 
DSSS ( 下 序 扩 频 ) DS-CDMA ( 直 序 CDMA) 802. 11b/g/n 
FHSS 〈 跳 频 扩 频 ) FH-CDMA ( 跳 频 CDMA ) 蓝牙 





SM (空间 复 用 ) 


SDMA ( 空 分 多 路 接 入 ) 


802. 11n、 LIE、WiMAX 





STC (时 空 编码 ) 


时 分 多 路 复 用 





STMA (时 空 多 路 接 入 ) 





802. 1ln、 LTE、 WiMAX 


时 分 多 路 复 用 (TDM) 是 一 种 将 来 自 低 速率 信道 的 多 个 数字 信号 结合 成 一 条 按时 隙 交替 共享 的 高 
速率 信道 的 技术 。TDM 的 简化 方案 如 图 2-30 所 示 ， 来 自 不 同 源 的 数据 流 以 时 际 的 方式 交织 在 一 起 。 

TDM 将 一 个 时 域 分 为 多 个 闫 定 长 度 的 周期 性 时 际 。 每 个 时 际 是 某 个 子 信 道 或 逆 辑 信道 的 一 部 分 , 
每 个 子 信 道 用 来 传输 一 个 数据 流 。 交 织 时 院 需 要 在 多 路 复 用 器 上 同步 。 它 可 以 通过 在 每 个 传输 帧 的 开 
头 加 入 一 个 或 多 个 同步 位 来 实现 。 与 可 以 动态 地 为 子 信道 分 配 时 隙 而 不 为 空 的 输入 线路 分 配 时 隙 的 统 
计 TDM 相对 比 ， 这 就 是 所 谓 的 同步 时 分 复 用 (TDM) 。 如 果 输 入 的 数据 传输 速率 不 同 ， 就 可 以 使 用 多 
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种 技术 ， 如 多 层次 多 路 复 用 、 多 时 隙 分 配 、 脉 冲 填充 〈 或 位 插入、 位 填充 )。 电话 行业 中 使 用 T 线 路 
以 实现 数字 信号 服务 。T 线路 能 分 成 从 Tl ~T4 的 不 同 数据 传输 速率 的 服务 。 
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-个 物理 信道 : 多 个 逻辑 子 信道 
图 2-30 时 分 多 路 复 用 的 处 理 过 程 

TDM 可 扩展 到 时 分 多 址 访问 (TDMA) 方案 中 ;通过 在 物理 层 实际 上 做 工作 的 TDM, TDMA 策略 
在 链 路 层 | 得 以 实现 。CSM 电话 系统 就 是 其 应 用 之 一 

频 分 多 路 复 用 

FDM 将 频 域 分 为 几 个 非 重 释 的 频率 范围 ， 每 个 是 一 个 子 载波 使 用 的 子 信道 。 图 2-31 显示 了 FDM 的 
处 理 过 程 。 在 发 射 占 上 上， 复 用 处 理 过 程 将 来 自 数据 流 的 所 有 波形 结合 起 来 ， 其 中 一 个 子 信 道 使 用 一 个 子 
载波 ， 最 终 导 致 在 一 个 物理 信道 上 传输 的 复合 信号 。 在 接收 端 ， 使 用 多 个 带 通 滤波 顺 ， 从 收 到 的 复合 舍 
号 的 子 信 道上 提取 消息 。FDM 只 适用 于 模拟 信和 号。 模拟 信号 通过 调制 可 以 转换 成 数字 信号， 然后 就 可 以 
应 用 FDM 技术 了 。AM 和 FM 信号 的 无 线 电 广播 是 使 用 FDM 技术 的 典型 应 用 。 例 如 ， 将 从 530 ~ 1700kHz 
的 带宽 分 配给 AM 无 线 电 收音 机 。 这 是 一 个 物理 信道 介质 的 带 觉 ， 由 多 个 无 线 电 电台 共享 
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一 个 物理 信道 : 多 个 
逻辑 子 信道 


图 2-31 频 分 复 用 (FDM) 的 处 理 过 程 

频 分 多 路 接 入 (FDMA) 是 由 FDM 扩展 而 来 的 访问 方法 。 正 交 频 分 多 路 接 入 (OFDMA ) 是 一 种 
基于 正 交 频 分 复 用 (OFDM) 的 FDMA 变种 。 单 载波 FDMA (SC- FDMA) 是 另 一 种 基于 FDMA 单 载波 
频 域 均衡 (SC- FDE 技术 ) 的 变种 。 波 分 多 址 (WDMA) 也 是 一 种 基于 波 分 复 用 (WDM) FDMA 的 变 
种 。WDM 实际 上 相当 于 频 分 复 用 ,但 其 常常 用 在 光纤 通信 中 ， 其 中 通常 用 术语 波长 来 描述 光 信 号 调制 
的 载波 。WDM 使 用 不 同 波长 的 激光 传输 不 同 的 信号 ， 每 个 波长 指定 为 单 光纤 中 的 一 个 子 载波 。 由 于 光 
纤 的 数据 传输 速率 比 双 绞 线 高 得 多 ， 所 以 WDM 波 分 复 用 通常 用 于 聚合 来 自 多 个 用 户 的 数据 。 同 步 光 
纤 网 络 (SONET) 就 是 一 种 使 用 WDM 的 应 用 


2.5 高 级 主题 


本 节 描 述 数字 调制 的 几 个 高 级 主题 。 具 有 较 少 电气 工程 背景 的 读者 在 第 一 次 阅读 本 书 时 可 以 跳 过 
本 节 。 更 多 的 教程 和 全 面 的 理解 可 以 在 数据 或 数字 课本 中 找到 。 对 于 需要 可 靠 和 安全 地 传输 如 军事 和 
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无 线 应 用 中 ， 常 常 要 考虑 合用 扩 频 ， 因 为 信号 经 过 扩展 后 在 频 域 就 会 更 像 噪声 ， 也 就 会 更 难以 检测 到 
F 扰 。 直 接 序列 扩 频 (DSSS) 和 跳 频 扩 频 (FHSS) 是 两 个 典型 的 方案 。 作 为 一 种 高 级 的 复 用 或 多 路 
接 入 方案 ， 码 分 多 路 接 人 (CDMA) 为 多 个 源 实施 扩 频 概念 ， 通 过 正 交 或 统计 不 相关 的 编码 表示 数据 
并 将 数据 扩展 到 整个 信道 上 

与 单 载波 调制 相 比 ， 多 载波 系统 在 多 个 单独 的 载波 信号 上 进行 调制 以 提高 带宽 利用 率 并 解决 多 径 


衰落 。 有 了 快速 傅 里 叶 变 换 (FFT) 的 实现 ， 多 载波 调制 技术 (如 正 交 频 分 复 用 (OFDM) ) 目前 已 广 
泛 应 用 在 许多 通信 系统 上 。 最 近 ， 在 发 射 端 有 多 个 发 射 天 线 并 且 在 接收 端 有 多 个 接收 天 线 的 多 和 输入 多 


输出 (MIMO) 系统 变 得 非常 流行 ， 央 为 它们 在 存 吐 量 和 可 靠 性 等 性 能 得 到 了 很 大 程度 的 提升 
表 2-7 显示 了 使 用 扩 频 、CCK 和 OFDNM 技术 的 现 有 下 EE 802. 11 标准 对 比 。 


表 2-7 在 IEEE 802. 11 无 线 局 域 网 标准 中 使 用 的 调制 技术 
i 











802. 11a 802. 11b 802. 11g 802. 11n 
带宽 580MHz 83. 5MHz 83. 5MHz 83. 5MH2/580MHz 
运行 频率 | 5GHz 2.40CHz 2.4GHz 2. 4GHz/5GCHz 

不 重 登 信道 数 日 | 24 3 3 3/24 





宝 间 流 的 数目 


L1、2、3. 或 条 
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2.5.1 扩 频 


数据 流 的 频谱 可 以 分 布 到 更 宽 的 频 帝 二。 扩展 可 以 提供 额外 的 宛 余 ， 以 减少 无 线 通 信 因 窃听 、 干 
扰 和 噪声 所 产生 的 脆弱 性 〈 漏 洞 ). 扩 频 (SS) 中 的 数据 流 是 由 特定 的 伪 噪 声 (PN) 序列 所 承载 的 . 
这 是 当 数 据 流 调 制 PN 序列 时 所 完成 的 。PN 序列 是 由 重复 出 现 的 、 由 码 片 序列 表示 的 PN 编码 所 组 成 
将 PN 序列 和 输入 数据 流 结合 ， 就 形成 了 数据 流 的 扩 频 序列 。 码 片 本 身 就 是 一 位 。 与 数据 位 相 比 ， 码 
片 只 是 PN 码 的 发 生 咒 产生 的 位 序列 。 因 此 ， 一 个 码 片 二 般 就 是 +1 或 -1 幅 值 的 矩形 脉冲 。 所 产生 的 
扩展 信号 的 能 量 分 布 到 比 数 据 流 信号 更 宽 的 带宽 上 。 像 在 纠 错 码 中 的 冠 余 一 样 ， 宛 余 可 以 增强 接收 机 
上 受 损 信号 数据 的 恢复 能 力 。 
伪 噪 声 (PN) 编码 和 序列 
一 个 PN 序列 ， 又 称 为 伪 随 机 数值 (PRN) 序列 ， 并 非 一 个 真正 的 随机 序列 ， 但 是 能 以 一 种 确定 的 
模式 产生 。 序 列 是 重复 的 ，PN 编码 在 序列 中 重复 出 现 。 与 数据 流 中 的 位 是 原子 元 素 相 类 似 ， 码 片 是 PN 
码 的 原子 元 素 。 码 片 速度 是 每 秒 处理 码 片 的 数量 。 在 图 2-32 中 ，PN 码 是 一 个 11 个 码 片 的 11 位 巴克 三 
( Barker code)， 它 不 断 地 重复 出 现 ， 就 形成 了 PN 序列 扩展 序列 是 通过 调节 PN 序列 与 数据 流 ， 利 用 
XOR 运算 而 生成 的 。 在 图 2-32 中 的 码 片 速率 是 数据 传输 速率 的 11 倍 。 扩展 序列 的 码 片 速 率 与 PN 序列 
的 相同 ,但 比 数据 流 的 速度 高 很 多 。 这 跌 解 释 了 为 什么 发 射 一 个 扩展 序列 比 数据 流 需 要 更 大 带宽 的 原因 。 
数据 流 (数据 序列 ) : 位 流 
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0001110110U14 100010010 
FFT TTY 加 | 


| i Lm 
上 = 一 11 个 码 片 一 "| 









11 个 人 码 片 
PN 码 : 11 位 巴克 码 (11100010010) 


图 2-32 由 PN 序列 扩展 的 数据 流 
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图 2-33 显示 了 来 自 扩 展 序列 的 传输 信号 的 扩展 能 量 的 广阔 审 宽 。 对 扩展 处 理 的 测量 处 理 增 益 
(PC) ， 是 由 码 片 速率 (C) 与 数据 速率 (R) 之 比 定义 的 。 码 片 速率 总 是 高 于 位 速率 。 此 外 ，PN 编码 速率 
决定 了 传输 扩展 波形 的 带宽 。 处 理 增益 是 用 来 衡量 扩 频 抵制 窄带 干扰 的 性 能 优势 ， 它 可 以 看 为 解 扩 频 后 ， 接 
收 器 上 上 的 信号 功率 与 干扰 功率 之 比 。 假 设 数据 速率 是 恒定 的 ， 那 么 码 片 速率 越 快 ，PG 就 越 高 。 这 意味 着 扩 
频 占 用 了 更 大 的 带宽 。 如 果 PC 足够 大 ， 扩 展 波形 能 够 以 小 于 噪声 功率 的 功率 通过 噪声 信道 ， 而 且 数据 流 仍 
然 可 以 在 接收 器 上 恢复 出 来 .那么 我 们 如 何 计算 处 理 增益 ? 例如 ， 如 果 将 一 个 1 位 的 巴克 码 用 于 PN 码 ， 处 
理 增益 就 可 按 如 下 计算 :10logw-%dB = 0logo dB = 10，4144B 〈 码 片 /位 ) 这 里 ，dB 代表 分 贝 。 这 是 一 个 


对 数 单位 表示 的 物理 量 级 ， 如 码 片 速率 ， 相 对 一 个 指定 的 参考 水 平 ， 如 数据 传输 速率 。 


功率 条 










宕 带 频谱 


扩展 频谱 












[- 一 上 BWI 上- 一 频率 
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图 2-33 扩展 频谱 和 罕 带 频谱 之 问 的 对 比 

当 扩 展 数据 流 时 ，PN 序列 起 着 关键 的 作用 。 其 类 型 和 长 度 决定 着 扩 频 系统 的 能 力 ， 一 个 精心 选择 
的 PN 序列 ， 有 助 于 匹配 的 滤波 器 有 效 地 拒绝 大 于 一 个 码 片 延迟 时 间 的 多 路 径 信和 号。 我 们 稍 后 在 CDMA 
中 将 看 到 类 似 的 做 法 ， 其 中 PN 码 也 用 于 接收 器 解 扩 接收 到 的 信和 号， 

巴克 码 、Willard 码 和 补 码 键 控 

IEEE 802. 11 标准 使 用 11 位 巴克 码 以 码 片 速率 11 码 片 /数据 符号 作为 一 个 PN 码 。 巴 克 人 码 具 有 良好 
的 相关 性 。Willard 代码 是 通过 计算 机 模拟 和 优化 获得 的 ， 可 以 提供 比 巴 殉 人 码 更 好 的 性 能 。 巴 克 人 码 和 
Willard 代码 清单 如 表 2-8 所 示 。 长 的 PN 序列 可 以 使 用 巴克 码 或 Willard 代码 循环 构造 。DSSS 技术 使 用 
11 位 和 13 位 巴克 码 。IEEE 802. 11b 标准 循环 地 使 用 11 位 巴克 码 以 便 以 1Mbps 或 2Mbps 扩展 数据 流 

表 2-8 巴克 码 和 Willard 码 
































码 长 度 (V) 巴克 码 | Willard 码 码 长 度 ( V) 巴克 码 Willard 码 
2 10 或 11 n/a 7 1110010 1110100 
3 110 110 11 11100010010 11101101000 
4 1101 或 1110 1100 13 1111100110101 1111100101000 
5 11101 11010 


IEEE 802. 11 标准 的 高 速 扩展 ， 采 用 补 码 键 控 (CCK) 的 调制 方案 ,在 2.4GHz 频段 以 5.5Mbps 或 
11Mbps 编码 数据 。 与 巴克 码 不 同 ，CCK 序列 可 以 完全 消除 雳 辩 〈side lobes)。 在 频谱 中 ,除了 需要 主 
辩 (major lobe) 外 ， 旁 办 可 以 是 任何 其 他 内 (lobe)。 此 外 ，CCK 人 码 字 具有 特 殊 的 数学 属性 能 够 有 效 
地 抑制 噪声 和 多 径 干 扰 ， 这 里 省 略 不 讲 

扩 频 系统 

图 2-34 显示 了 一 个 扩 频 系统 ， 扩 展 信号 传输 通过 珊 有 罕 带 /宽带 干扰 和 多 路 径 的 噪声 信道 。 在 扩 
频 系 统 中 ， 一 个 县 有 位 速率 为 RR 的 输入 数据 流 d, 被 但 片 速度 为 尺 的 PN 序列 pn, 扩 展 ， 那 么 就 获得 了 

-个 扩展 码 片 流 ww,。 基 带 带 宽 为 RR 的 输入 数据 流 被 扩展 到 更 广泛 的 RTL。 带宽 扩展 因子 SF 或 处 理 增 
答 G, 是 通过 RA/R, 得 到 的 。 接 下 来 进行 通 带 调制 ，wx, 变 成 了 传输 的 tix。 在 接收 端 ， 扩 频 信号 rx 被 天 
线 接收 ， 然 后 解 调 。 接 下 来 解 调 信号 rx, 由 一 个 使 用 自 相 关 和 互相 关 的 PN 序列 pn, 解 扩展 。 两 个 相关 
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序列 即 分 别 来 自 所 需 数 据 信 号 和 多 径 信 和 号 的 PN 序列 的 和 相关 将 接近 1， 而 两 个 互 不 相关 的 序列 即 分 别 
来 自 所 需 数据 信号 和 干扰 信号 的 PN 序列 的 互相 关 性 将 接近 0。 输 出 数据 流 d, 是 经 过 解 扩 后 获得 的 。 如 
果 pn, 的 PN 码 等 于 pn, 的 PN 码 ， 那 么 PN 序列 pn 与 pn 同步。 输入 的 数据 流 d, 以 输出 数据 流 的 d, 恢 
复 ， 因 为 pn, 和 pn 的 自 相 关 性 是 明显 的 ， 即 接近 1， 

高 其 窑 带 项 。 宽 带 干扰 

噪声 | 中 
扩展 | | 解 扩展 

Id ss , 
< Rs 输出 数 
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图 2-34 通过 噪声 信道 的 扩 频 系统 

男 一 方面 ， 如 果 pn, 和 pn 互相 关 性 很 小 ， 无 法 辨认 ， 并 像 噪声 似 的 ， 即 接近 0， 那 么 输入 的 数据 流 
就 不 能 在 接收 端 恢 复出 来 。 如 果 不 知道 发 射 涡 上 所 用 的 PN 码 ， 那 么 接收 器 就 会 将 扩 频 信和 号 当做 白 噪 
声 似 的 信号 来 处 理 。 相 应 地 ， 在 PN 码 没 有 透露 给 第 三 方 的 情况 下 ， 通 信和 隐私 就 仪 被 通信 双方 所 掌握 。 

与 多 路 复 用 技术 一 样 ， 扩 频 可 以 将 多 个 具有 不 同 PN 序列 的 多 个 数据 源 结 合 起 来 传输 ， 但 它 需 要 
具有 更 大 的 带宽 用 于 传输 。 这 样 私 密 性 和 抗 干 扰 能 力也 得 到 提高 。 扩 展 信 号 使 之 类 似 于 噪声 ， 使 得 信 
号 能 混合 到 背景 干扰 波形 中 并 且 经 信道 传输 而 不 被 检测 或 穷 听 到 。 它 是 专门 为 无 线 通信 设计 的 ， 因 为 
传输 介质 暴露 在 公众 下 〈 公 开 曝 光 ) 并 且 传 输 信号 很 容易 被 截获 。 

在 无 线 通信 中 ， 存 在 来 自 大气 反 射 或 折射 ， 或 者 从 地 面 、 建 筑 物 或 其 他 物体 反射 的 多 种 传播 路 径 ， 
这 些 多 径 信号 ， 即 图 2-34 中 的 rx,， 可 能 会 使 经 过 图 2-34 中 的 直接 路 径 接收 到 的 信号 rr, 产生 波动 。 来 
自 每 条 路 径 的 信号 都 有 自己 的 衰减 和 延迟 时 间 。 接 收 顷 必须 能 将 从 直接 路 径 来 的 信号 与 其 他 路 径 来 的 
信号 以 及 干扰 和 噪声 分 开 。 如 果 多 径 信号 延迟 大 于 一 个 码 片 时 间 , 那么 它们 就 与 所 需 信 和 号 无 关 ， 即 自 
相关 远离 1、 互 相关 接近 于 0。 换 句 话 说， 从 间接 路 径 来 的 PN 序列 就 不 再 与 从 直接 路 径 来 的 PN 序列 
同步 。 因 此 在 扩 频 系统 中 的 多 径 衰 落 不 会 造成 重大 的 影响 ， 并 且 可 以 有 效 地 过 滤 掉 

直接 序列 扩 频 

从 图 2-34 中 可 以 看 出 ， 一 个 扩 频 系统 通常 后 跟 一 个 带 通 调制 占 ， 如 BPSK、M 进 制 PSK (MPSK， 
M 大 于 2) 和 QAM。 图 2-35a 显示 了 场景 ， 其 中 直接 序列 扩 频 (DSSS) 系统 后 跟 一 个 M 进 制 PSK 调制 
器 。 由 于 MPSK 信和 号 调制 器 具有 同 相 的 同时 又 是 正 交 的 分 量 ， 所 以 系统 需要 两 次 扩展 处 理 。 

输入 的 数据 被 分 成 两 个 数据 子 流 ， 每 个 都 由 一 个 PN 序列 扩展 。 一 个 是 同 相 分 量 ， 一 个 是 正 交 分 








量 。DSSS 使 用 一 个 PN 码 或 它 的 补 位 来 代替 数据 流 中 的 每 一 位 。 传 输 信 号 频谱 是 由 图 2-35b 中 扩展 流 
的 码 片 速率 R 决定 ， 而 不 是 由 数据 流 的 位 速率 R, 决定 。 

HA A 

y y 









调制 器 ”| 发 射 机 接收 机 二 











IRF-Re fRF IRFTR。 t 


基带 通 带 基带 |- 一 Bw 一 一 一 ~| 
a) 使 用 MPSK 调 制 的 DSSS 系 统 b) 扩展 序列 频谱 


图 2-35 ”DSSS 和 扩展 序列 频谱 
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干扰 和 噪声 对 DSSS 的 影响 

gh epee i 的 影响 。 在 接收 端 ， 接 收 信 号 是 一 种 包括 干扰 信号 和 噪声 的 复 
合 信 和 号。 复合 信号 由 一 个 PN 序列 解 扩 展 以 便 能 从 发 射 器 恢复 出 数据 流 。 接 下 来 解释 扩 频 技术 如 何 减 
轻生 ete 

e 如 果 ; 是 一 个 罕 带 干扰 ， 这 意味 着 上 是 从 另 一 个 数据 流 中 来 的 信号 。， 解 扩展 后 ， 来 月 罕 带 干扰 产生 

的 结果 就 变 成 一 个 扁平 的 频谱 并 且 比 所 需 数 据 流 的 频谱 功率 密度 比 低 很 多 的 扩散 序列 。 可 以 使 用 

低 通 滤波 融 将 它 过 滤 掉 。 因 此 ， 扩 频 可 以 排除 窜 带 十 扰 ， 但 传统 的 罕 带 技术 却 不 能 排除 十 扰 。 

。 如 果 守 是 一 个 来 自 另 一 个 用 户 的 扩展 序列 但 使 用 不 同 PN 序列 的 宽带 干扰 。 解 扩 后 ， 宽 带 干 扰 的 

序列 就 再 次 是 局 平 的 ， 因 为 宽带 干扰 使 用 了 不 同 的 PN 序列 ， 那 么 这 种 互相 关 的 点 乘积 与 使 用 

相同 PN 编码 的 宽带 信号 相 比 会 显得 相当 小 并 有 点 像 噪声 扁平 干扰 可 以 通过 低 通 滤波 器 很 容 

易 地 过 滤 卸 。 这 表明 ， 扩 频 可 以 消除 宽带 干扰 。 

e 如 果 “是 噪声 ,那么 噪声 的 结果 序列 在 码 片 速度 了 仍然 像 噪声 一 样 地 扩展 序列 ， 并 且 具 有 低 功 

率 密度 。 届 平 的 高 斯 噪声 频谱 也 可 以 通过 低 通 滤波 融 过 滤 。 扩 频 系统 的 信号 对 噪声 更 有 免疫 性 ， 

特别 是 当 信 和 号 经 过 一 个 有 噪声 的 信道 时 ， 其 效果 就 会 更 加 显著 

IEEE 802. 11 通常 允许 使 用 来 自 2.412 ~2.462CHz 的 11 个 信道 (每 个 信道 5MHz 宽 )， 信 道 1 的 中 
心 在 2.412CHz。 IEEE 802.11 使 用 以 1Mbps 和 2Mbps 的 速度 进行 DSSS 调制 ， 而 IEEE 802. 11b 以 
5. 5Mbps 和 11Mbps 速度 使 用 CCK 调制 ，IEEE 802. 11g 支持 扩展 速率 PHY (ERP)。ERP- DSSS 、ERP- 
CCK 和 ERP- OFDM 的 调制 用 于 向 后 兼容 。 在 WLAN 中 的 DSSS 物理 层 包 括 两 个 子 层 : 物理 层 汇聚 协议 
(PLCP) 和 与 物理 介质 相关 (PMD) 子 层 。PLCP 主要 是 用 于 成 帧 。 图 2-36 显示 了 PMD 子 层 ， 扩 展 器 
就 位 于 这 个 子 层 
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图 2-36 DSSS 收发 机 

跳 频 扩 频 

oo 首 ， 以 便于 传输 信号 能 在 这 些 子 信道 之 间 跳 跃 。 传 输 信号 
会 在 每 个 子 信 道中 停留 一 段 时 间 ， 称 为 停留 时 间 。 在 图 2-37a 中 ，PN 编码 发 生 器 产生 一 个 映射 成 频率 词 
的 PN 序列 pn,， 用 来 表示 表 中 的 一 个 频率 跳跃 序列 。 这 些 频 率 词 被 依次 传送 到 频率 合成 器 以 便 产生 具有 
不 同 频率 的 入 载波， 如 图 2-37b 所 示 。 发 射 机 在 这 些 NN 载波 之 间 按 顺序 跳跃 。 在 图 2-37 中 ，FHSS 系统 
将 M- FSK 调制 带 与 FH 调制 天 结合 起 来 分 别 用 于 调制 和 跳 频 。FHSS 发 射 器 和 接收 费 使 用 相同 的 跳 频 模 
式 。 在 每 一 跳 中 ， 传 输 信号 的 带宽 与 M- FSK 的 输出 信号 相同 。 驻 留 在 FHSS 子 信道 中 的 信号 就 是 罕 带 信号， 

FHSS 为 源 信号 利用 一 个 具有 不 同 频率 的 载波 地 。 每 次 使 用 其 中 一 个 载波 ， 因此 消息 可 以 被 不 同 的 载 
波 所 传输 。 如 果 池 中 有 个 载波 ， 那 么 所 需要 的 带宽 就 是 由 单 载波 所 使 用 带宽 的 4 倍 再 加 上 一 些 防护 频 
带 。 与 通过 PN 序列 扩展 源 编码 的 DSSS 不 同 ，FHSS 从 由 PN 编码 导出 的 映射 表 中 选择 一 个 频率 。 只 要 每 
一 跳 使 用 不 同 的 频率 ， 所 需 的 带宽 就 可 以 在 多 个 用 户 之 间 共 享 。 不 同 频率 之 问 共 享 带宽 的 概念 类 似 于 频 
分 复 用 (FDM) 技术 。PN 编码 发 生 需 为 频率 合成 天 重复 产生 位 模式 。 这 些 模 式 可 用 来 选择 载波 ， 以 便 
传输 在 跳 频 期 间 输 入 的 消息 。 可 能 有 多 个 用 户 选 择 同 一 个 子 信 道 传 输 ， 这 样 一 来 就 会 产生 干扰 ， 当 一 个 
符号 在 几 跳 中 重复 传输 时 ， 只 要 在 大 多 数 跳 中 没有 受到 干扰 ， 那么 接收 划 仍 然 可 以 局 复 信号 

如 果 跳 周期 时 间 很 短 ， 那 么 对 于 一 个 不 了 解 PN 码 的 窃听 者 来 说 ， 拦 截 信 号 就 会 很 困难 。 对 于 不 
了 解 PN 但 的 入 侵 者 按照 用 户 使 用 的 序列 通过 跳 到 不 同 频率 来 阻塞 流量 同样 是 很 困难 的 。FHSS 应 用 于 
蓝牙 和 早期 的 IEEE 802. 11 中 。 然 而 ， 当 用 于 在 很 短 时 间 问 隔 内 进行 高 速 传 输 的 快速 跳 频 时 ， 发 射 器 
和 接收 费 之 间 的 同步 会 变 得 很 困难. 因此 ， 它 不 用 于 IEEE 802. 11a/b/g/n 
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a) FEHSS 带 有 一 个 PN 但 产生 器 以 选择 载波 跳 频率 
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b) 一 个 由 AN 个 子 信道 组 成 的 FHSS 信 道 频谱 
图 2-37 ”FHSS 系统 和 子 信道 频谱 





码 分 多 路 接 入 ( CDMA ) 

码 分 复 用 (CDM) 允许 从 多 个 独立 源 到 达 的 信号 同时 在 同一 频段 上 通过 一 个 信道 传输 。CDM 是 一 
种 扩 频 技术 ， es 人 帮 必 村 人 (CDMA) 所 使 用 的 多 路 接 和 技术。 因此，CDMA 是 一 种 扩 频 多 路 接 入 
(SSMA) 技术 。 与 TDMA 和 FDMA 不 同 ，CDMA 没有 按时 间或 频率 将 一 个 物理 信道 分 成 多 个 子 信 道 。 
在 CDMA 二 中， 每 个 用 户 在 同一 时 间 占 据 物 理 信 道 的 整个 带宽 ， 同 时 使 用 单独 的 正 交 码 或 PN 码 。 
事实 上 ，CDMA 通过 一 组 正 交 码 或 PN 码 来 复 用 不 同 的 用 户 。CDMA 的 儿 个 变种 都 有 其 自己 的 复 用 方 
法 ， 如 基于 DSSS 的 直接 序列 CDMA (DS-CDMA) 和 基于 FHSS 的 跳 频 公分 多 路 接 入 (FH-CDMA) 。 

CDMA 也 可 以 划分 为 同步 CDMA 和 异步 CDMA。 同 步 CDMA 系统 采用 正 交 人 码 ， 而 异步 CDMA 使 用 
PN 码 。 正 交 码 是 严格 的 零 成 对 内 积 向 量 ， 而 PN 码 是 统计 量 ( 如 果 密 切 相 关 ， 则 成 对 自 相 关 接 近 1; 
如 果 非 密切 相关 ， 则 成 对 互相 关 接近 0)。 这 两 种 码 在 接收 右上 均 使 用 扩 频 增益 以 便 确定 所 需要 的 信号 
而 不 是 其 他 不 想 要 的 信号。 如 果 所 需要 的 用 户 信号 与 其 他 用 户 的 信和 叶 不 相关 ， 那 么 在 同步 CDMA 中 的 
内 积 是 零 ， 在 异步 CDMA 中 的 互相 关内 积 趋 近 于 零 。 与 通用 扩 频 中 多 径 十 扰 的 处 理 方案 相 类 似 ， 如 果 
漂移 大 于 一 个 码 片 时 间 ， 那 么 所 需要 的 信号 将 具有 零 内 积 或 者 与 经 同一 正 交 编码 或 PN 编码 调制 过 的 
信号 具有 低 的 自 相 关 性 。 而 且 ， 此 属性 有 助 于 消除 多 径 干 扰 。 

同步 CDMA 

在 同步 CDMA 中 ， 正 交 编 码 被 映射 到 相互 正 交 具 有 内 积 为 零 的 一 组 向 量 。 主 交 编码 将 分 配给 用 户 
用 以 扩展 用 户 数据 频谱 。 编 码 可 以 从 如 图 2-38 所 示 的 正 交 可 变 扩展 因子 (Orthogonal Variable Spreading 
Factor，OVSF) 代码 树 中 得 到 。 这 些 代码 是 成 对 地 正 交 。 

OVSF 码 树 基 于 Hadamard 和 矩阵 ， 即 一 种 具有 +1 或 -1 项、 其 行 相互 正 交 的 方 阵 。 将 每 种 编码 或 码 
片 编 码 分 配 到 一 个 单独 的 用 户 来 表示 数据 流 中 的 一 位 。 例 如 ， 如 果 一 个 正 交 码 为 (1, -1,1,-1)， 屠 
么 编码 失 量 可 以 表示 为 v = 1, 一 1,1, 一 1。 如 果 v 表示 0 位 而 -vv 表示 1 位， 那么 “10110” 的 数据 流 
可 以 表示 成 为 (一 p,p, 一 ?一 ,vy )。 数 据 流 扩展 为 (一 (1; -1,1, -1)，(1, -1,1 -1)，=- (1， 
3 > Ee -1,1, es 并 最 终 成 为 (-1,1,-1,1,-1,1,-1,1.-1,1， 
-1,1,—1,1,—1,1,1,—1,!, ， 处 理 是 通过 XOR ( 异 或 ) 运算 符 实现 的 ， 如 图 2-39 所 示 。 数 据 信 
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二 和 


号 有 具有 脉冲 持续 时 间 7,， 而 正 交 编码 信和 号 有 具有 7 持续 有 时间。 换 句 话说， 数据 信号 的 带宽 是 17 7， 下 
交 码 带宽 是 1/7 扩展 因子 或 处 理 增益 ， 是 正 交 信 号 与 数据 信号 的 带宽 比率 ，7,/7, ， 这 限制 1 J 1 总 
数 的 于 限 ， 











C8,1)=0. 1411) 
C04,1) ai 
C8,3)=(1,1.1.1.-1.-1.-1.=1) 
CS y= 1》 
C8,3)=00,1.-1.-1.1.1.-1.=1) 
C42)=(01.1.-1.-1) 
C(84)=(04,1.-1.—1.—1.-1.1.1) 
ci, 信人》 ee 
C8,5)=(1 -1.4.1.1 .1.1.—1) 
CH,3)=(1.=1.1.-1) 
区 三 人 =) 
C(33)=(1,=1) 
C8,7)=(1,=1.=1.=1.=1.=1.=1) 
C4,4)=(1.-1.=1.1) 
C8,8)=04 ,=1.—1.-1.-1.-1 ,~1) 
图 2-38 同步 CDMA 的 OVSF 代码 材 
数据 信号 
Ee | | 0 1 be: 0 
后 一 一 一 史 一 一 可 
3 下 : | | | | | 习 而 
= 人 | -1 1 一 [ 1 | | | 
ll 
| 1 ， 惠 '" | | | | 结果 信号 : (数据 信 入) 
RE 和 
图 2-39 ”使 用 子 信道 的 正 交 编 人 来 扩展 数据 信号 
异步 CDMA 


异步 CDMA 采用 PN 码 。 与 通用 扩 频 一 样 ，PN 码 是 具有 随机 性 的 三 进 制 序列 在 接收 端 以 确定 性 的 
行为 再 生出 来 。PN 码 用 于 异步 CDMA 扩展 和 解 扩展 用 户 的 信号 ， 而 正 交 码 则 用 于 同步 CDMA。 它们 在 
统计 概率 |- 几乎 无 关 。 与 同步 CDMA 不 同 ， 其 他 用 户 的 信号 的 确 以 噪声 似 的 信号 出 现 ， 并 会 轻微 干扰 
所 需要 的 信和 号。 也 就 是 说 ， 具 有 不 同 PN 码 的 信号 成 为 具有 特定 PN 码 所 需 信 号 的 宽带 噪声 。 即 使 接收 
到 的 信号 与 需要 的 信号 具有 相同 指定 的 PN 编码 ， 但 如 果 它 在 某 一 时 间 售 差 内 接收 到 ， 它 也 是 以 所 需 
信号 的 噪声 形式 出 现 

尽管 同步 CDMA 、TDMA 和 FDMA 能 够 完全 据 弃 其 他 信号 ， 分 别 . 于 代码 正 交 性 、 时 际 、 频 率 信 

， 但 异步 CDMA 只 能 部 分 地 握 弃 不 想 要 的 信和 号。 如果 不 需要 的 信号 比 所 需 信 号 强 很 多 ， 那 么 所 1 Wi 

已 全 二 到 严重 的 影响 。 因此， 需要 有 一 种 功率 控制 方案 来 管理 每 个 es 异步 CDMA 量 
然 有 这 种 缺点 ,但 也 具有 以 下 优点 。 

1) 异步 CDMA 比 TDMA 和 FDMA 更 有 效率 地 使 用 频谱 。TDMA 中 的 每 个 时 际 需 要 有 一 个 守护 时 
问 来 同步 所 有 用 户 的 传输 时 间 。 在 FDMA 中 的 每 个 信道 都 需要 有 一 个 防护 频带 ， 以 防止 来 自 相 邻 信 道 
的 干扰 。 防 护 时 间 和 防护 频带 两 者 都 会 浪费 频谱 的 使 用 . 

2) 异步 CDMA 能 够 为 用 户 灵 活 地 分 配 PN 代码 而 不 对 用 户 数 量 做 严格 的 限制 ， 尽 管 同步 CDMA、 
TDMA 和 FDMA 只 能 将 其 资源 分 配给 固定 数量 的 并 发 用 户 ,， 上 有 具体 取 决 于 固定 数量 的 正 交 码 、 时 际 、 频 
带 。 这 是 由 于 PN 码 很 低 的 但 非 零 互相 关 的 性 质 以 及 自 相 关 和 互相 关 操 作 所 决定 的 。 在 电话 和 数据 通 
信和 的 高 流量 突 发 中 ， 异 步 CDMA 能 够 更 加 有 效 地 将 PN 码 分 配给 更 多 的 用 户 。 人 然而， 在 异步 CDMA 中 
的 用 户 数量 仍然 受到 误 码 率 的 限制 ， 因 为 信号 干扰 比 (SIR) 与 用 户 数量 成 反比 

3) 与 使 用 正 交 码 的 同步 CDMA 一 样 ， 基 于 PN 序列 的 抗 干 扰 能 力 的 异步 CDMA ， 提 供 高 水 平 的 隐 
私 性 ne TP 频 信 号 具有 噪声 一 样 的 属性 ， 如果 没有 有 具体 指定 PN 序列 ， 那 么 非 同 步 
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CDMA 的 优点 

这 里 我 们 总 结 使 用 扩 频 CDMA 的 优点 。CDMA 技术 可 以 有 效 地 减少 多 径 衰 落 和 窒 带 干扰 ， 因 为 
CDMA 信和 号 是 占用 了 很 广 范围 带宽 的 扩 频 信和 号， 仅 有 很 少 一 部 分 信号 受到 窄带 干扰 和 多 径 误 落 ， 冲 突 
的 部 分 可 以 通过 过 滤 而 去 掉 ， 而 丢失 的 数据 也 可 以 通过 使 用 纠 错 技 术 加 以 恢复 。CDMA 可 以 有 效 地 避 
免 多 径 干 扰 ， 因 为 来 自 多 径 的 延迟 信号 与 所 震 信号 变 得 几乎 不 相关 ， 即 使 它们 两 者 都 具有 相同 的 PN 
但 也 是 如 此 。 

CDMA 能 够 重用 同一 频率 ， 因 为 信道 可 被 各 种 正 交 码 或 PN 码 分 隔 开 ， 而 FTDMA 和 TDMA 却 不 能 
蜂 帘 系统 中 ， 相 邻 蜂窝 频率 重用 的 能 力 使 得 CDMA 能 够 使 用 软 切换 技 术 。 软 切换 是 一 种 蜂 帘 电 话 在 一 
次 呼叫 期 间 能 够 同时 与 多 个 蜂 帘 连 接 的 特性 。 移 动手 机 中 存 有 相 邻 蜂 帘 的 功率 测量 列表 ， 以 便 决 定 是 
否 要 进行 软 切换 。 软 切换 使 得 移动 站 点 保持 一 种 更 好 的 信号 强度 和 质量 。 


2.5.2 单 载波 与 多 载波 

多 载波 调制 (MCM) 将 数据 流 分 割 成 多 个 数据 子 流 ， 每 一 个 数据 子 流 为 窒 带 子 信道 调制 一 个 对 应 
的 载波 。 调 制 过 的 信号 可 以 经 过 频 分 多 路 复 用 (FDM) 进一步 复 用 。 这 称 为 多 载波 传输 。 由 MCM 产 
生 的 复合 信号 是 一 个 宽 刘 信号， 这 个 信号 可 以 更 好 地 避免 多 径 误 沙 和 码 问 和 干扰. 相反 ， 如 果子 信道 被 
但 分 多 路 复 用 (CDM) 所 复 用 ， 我 们 就 称 之 为 多 码 传输 。 这 里 仅 讨 论 了 用 于 多 载波 的 正 交 频 分 复 用 
(OFDM) 

正 交 频 分 复 用 

OFDM 技术 的 主要 特点 是 子 载波 的 正 交 性 ， 这 样 能 使 数据 同时 通过 由 在 紧密 的 频率 空间 而 没有 相 
下 干扰 的 正 交 子 载波 构成 的 子 信道 . OFDM 将 复 用 技术 、 调 制 技术 和 多 载波 技术 结合 起 来 构建 一 个 通 
信 系 统 。OFDM 就 是 由 逆向 快速 传 里 叶 变 换 和 快速 倩 里 叶 变 换 (IFFTAFFT) 实现 的 。 不 同 于 传统 的 
FDM 技术 ， 每 个 数据 流 仅 占用 带 有 一 个 特定 载波 的 一 个 子 信道 ，OFDM 而 是 将 数据 流 分 开 以 便 能 够 同 
时 使 用 多 个 子 信道 。 使 用 多 载波 的 好 处 是 : 如 果 一 个 子 信道 出 现 故障 ， 数 据 流 仍然 可 以 在 接收 方 恢 复 ， 
因为 只 有 部 分 数据 受到 (如 突 发 错误 的 ) 损坏 。 

OFDM 系统 的 框图 如 图 2-40 所 示 ,。IFFT 执行 多 载波 调制 占 功 能 以 产生 OFDM 复合 信号 。 将 一 个 循 
贡生， 和 ert ty 
个 符号 是 一 种 持续 一 Ee 
问 的 转换 就 可 以 用 en 在 接收 端的 解 调 器 是 通过 FFT 实现 的 。 
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输入 数 : OFDM 
ee 并 行 到 品行 Poe ， 北 检 全 车 
据 流 转换 器 (IPET) 
信道 
a OFDM 
输出 数 品行 到 并 行 二 | ， 瑟 丰 全 号 于 二 一 
据 流 转 搞 器 SS 删除 循环 前 线 接收 








图 2-40 多 载波 OFDM 系统 

带 有 逆向 快速 傅 里 叶 变换 和 快速 傅 里 时 变换 的 正 交 频 分 复 用 系统 

多 载波 调制 器 通常 由 一 个 IFFT 处 理 实现 ， 如 图 2-41 所 示 。 为 了 产生 OFDM 信号， 
个 数据 子 流 调制 过 的 正 交 载波 信号 结合 起 来 。IFFT 有 一 个 对 应 的 FFT。 无 论 时 域 信号 还 是 频 域 信号 
部 可 被 FFT 或 IFFT 处 理 。 如 果 信 号 被 一 对 IFFT 和 FFT 处理， 输出 结果 就 与 四 信号 相同 。 这 
OFDM 机 制 如 何 通 过 一 对 IFFT 和 TTF 实现 的 。 在 图 2-41 中 ，IFFT 将 频 域 信号 转换 成 时 域 信号 ，1 
FFT 则 与 此 相反 。 这 里 ，IFFT 的 时 域 输 入 位 被 认为 是 ri a 
似 于 时 域 的 信号 。IFFT 和 FFT 都 是 数学 概念 ， 两 者 都 是 线性 过 程 并 且 完 全 可 道 。 
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频 域 信号 的 正 交 性 ， 如 图 2-42 中 所 示 。 跨越 零 振幅 点 的 两 个 信号 是 相互 正 交 的 。 每 个 频率 分 配 一 
个 子 载波 或 子 信道 ， 并 且 可 应 用 二 种 (例如 ，QAM 或 OPSK) 经 典 测 制 方案 




















频率 


图 2-42 OFDM 的 正 交 图 

使 用 循环 前 绥 作 为 符号 之 问 的 守护 问 隔 ， 简 化 了 传输 信号 的 直接 卷 积 和 对 循环 卷 积 的 多 径 信 道 响 
应 ， 这 辑 相 当 于 采 皮 FFT 操 作 后 的 一 种 直接 乘法 ， 因 而 消除 了 RSI 然而，OFDM 要 求 发 射 占 和 接收 占 
之 问 精确 的 频率 同步 ， 央 为 任何 频率 漆 移 都 会 候 坏 子 载波 的 正 交 性 ， 并 导致 载波 间 干 扰 (ICI) 或 子 载 
波 间 的 串扰 。 

多 径 衰落 

在 无 线 通 信 中 ， 多 径 传 播 是 一 种 被 传输 的 信号 通过 不 同 的 路 径 以 不 同 的 时 刻 到 达 接 收 者 天 线 的 现 
象 ， 由 于 传送 融和 接收 顷 周 于 存在 的 反射 物 ， 传 笨 信 号 会 产生 反射 ， 而 使 信号 从 多 条 路 径 到 达 接 收 器 
多 径 信 号 可 能 会 导致 不 同 程度 的 有 益 或 有 害 的 干扰 、 相 移 漂移 、 延 迟 和 衰减 。 强 烈 有 害 的 干扰 就 是 指 
信号 的 严重 (深度 ) 衰落 ， 使 信 噪 比 突然 降低 ， 并 导致 双方 无 法 通信 。 多 径 信号 可 以 视 为 传输 信和 号 的 
直接 卷 积 和 多 径 信道 的 响应 。 但 是 通过 接收 端的 信道 平衡 器 、 通 过 在 频 域 调制 信号 ， 以 及 通过 使 用 循 
坏 前 级 ， 这 种 效应 可 以 被 去 掉 或 减轻 ， 百 接 卷 积 被 简化 成 循环 卷 积 ， 并且 依次 在 接收 端 采 到 过 FFT 操 
作 后 它 就 变 成 频 域 中 的 直接 乘积 。 因 此 ，OFDM 完全 去 掉 了 在 接收 端 需要 的 复杂 平衡 器 ， 并 简化 了 接 
收 器 的 设计 。 以 防 万 一 出 现 针对 特定 子 载波 的 深度 衰落 ， 接 收 信号 仍旧 可 以 通过 带 有 错误 纠正 码 的 编 
但 技 马 进行 恢复 。 

OFDM 的 应 用 

OFDM 应 用 于 ADSL 和 VDSL 宽带 接 入 、 电 力 线 通信 (PLC) 、DVB-C2 、IEEE 802. 11a/g/n 无 线 局 
域 网 、 数 字音 频 系 统 (如 DAB 和 DAB + )、 地 面 数字 电视 系统 和 IEEE 802. 16e 的 WiMAX，OFDM 设计 
用 于 一 个 待 发 送 的 位 流 以 一 系列 OFDM 符号 序列 通过 一 个 通信 信道 ， 但 是 也 可 以 用 于 通过 时 分 、 频 分 
或 码 分 多 路 复 用 。 正 交 频 分 多 接 人 (OFDMA) 为 不 同 用 户 分 配 不 同 的 子 信道 以 实现 FDMA. 


2.5.3 多 输入 、 多 输出 
一 个 多 给 入 和 多 输出 ( MIMO) 系统 在 发 送 端 和 接收 端 基本 上 都 包括 天 线 阵列 和 自 适 应 信和 号 处 理 
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单元 。 该 系统 将 多 种 分 集 方案 用 于 数据 通信 。 分 集 方 案 ( 例 如， 时间 分 集 、 频 率 分 集 、 空 间 分 集 、 多 
用 户 分 集 ) 使 信号 有 具有 抵抗 信号 衰落 的 能 力 。 时 间 分 集 变 求 信号 在 不 同 的 时 刻 传输 ， 市 频率 分 集 变 求 
信号 通过 多 个 频率 信道 传输 。 空间 分 集 允 许 信号 从 多 个 发 射 天 线 发 送 和 被 多 个 接收 天 线 所 接收 多 用 
户 分 集 被 随机 的 用 户 调度 ， 根 据 信道 信息 选择 最 佳 用 户 来 实现 。MIMO 利用 这 些 分 集 方案 ， 提 高 系统 
的 可 靠 性 

MIMO 既 可 用 于 有 线 也 用 于 无 线 系统 ， 例 如 ， 千 光 DSL (数字 订户 线 ) 是 一 种 有 线 的 应 用 。 这 里 ， 
我 们 将 重点 放 在 使 用 天 线 阵列 的 MIMO 无 线 传输 系统 。 天 线 阵列 通过 使 用 多 个 发 射 和 接收 天 线 提供 空 
间 分 集 以 提高 质量 和 可 靠 性 ， 如 无 线 链 路 的 误 码 率 ( BER)。 与 天 线 阵列 之 间 的 链 中 提供 信号 传播 通过 
的 多 条 路 径 。 到 达 接 收 方 具有 不 同 传播 延迟 和 豪 | 然后 创建 室 分 的 信道 。MIMO 将 在 传 
统 无 线 系统 中 多 径 传 播 的 缺点 转变 成 了 优点 ,特别 是 对 于 那些 没有 在 视 距 内 传输 的 系统 来 讲 更 是 如 此 
泊 MIMO 利用 多 径 传播 时 ， th ged de 

在 空 分 复 用 (SDM) ， 也 称 为 室 间 复 用 (SM) 中 ， 多 个 位 流通 过 不 同 的 天 线 并 行 传输 。 空 分 多 址 
(SDMA) 是 一 种 信道 接 人 方法 ， 它 经 过 空间 多 路 复 用 和 分 集 创 建 并 行 的 空间 信道 。SDMA 使 用 智能 天 
线 技术 (这 是 从 MIMO 演变 而 来 ) 和 移动 站 点 空间 位 置信 息 ， 以 便 在 基站 实现 辐射 模式 ， 基 站 上 的 发 
送 和 接收 都 适应 每 个 用 户 以 便 获 得 最 高 的 增益 。 相反 ， 在 传统 的 蜂 窗 系统 中 ， 基 站 没有 移动 站 点 位 置 
的 信息 ， 因 此 信和 号 会 在 各 个 方向 发 送 。 这 可 能 滔 费 发 射 功率 ， 并 有 上 且 与 合用 相同 频率 或 蜂 帘 相 邻 产生 
干扰 。 

MIMO 系统 的 分 类 

MIMO 可 以 根据 信道 的 使 用 情况 或 用 户 数 进行 分 类 根据 已 知 的 信道 知识 ，MIMO 可 以 分 为 三 组 : 
预 编码 、 空 间 复 用 (SM) 和 分 集 编码 。 预 编码 方法 需要 信道 状态 信息 (CSIT) ， 但 分 集 编 码 方法 则 不 震 
要 。 空间 复 用 既 可 以 使 用 也 可 以 不 使 用 信道 知识 ， 

信道 感知 的 预 编码 利用 有 关 信 道 状态 的 反馈 信息 来 安排 发 射 机 上 的 波束 形成 或 空间 处 理 。 波 束 形 
成 是 一 种 信和 号 处 理 技术 或 空间 过 滤器 ， 它 将 从 小 型 非 定向 天 线 来 的 一 组 无 线 电信 和 号 组 合 起 来 ,模拟 一 
个 更 大 的 有 向 天 线 。 这 种 模拟 的 定向 天 线 用 以 确定 传输 信号 的 方向 。 这 种 预 编 码 方法 可 以 增加 信号 增 
益 和 减少 多 径 误 落 ，SM 技术 需要 了 人 解 天 线 配置 ， 以 便 将 一 个 高 速率 的 信号 流 分 成 多 个 低速 率 的 子 流 ， 
然后 青 使 用 相同 的 频率 信道 在 不 同 的 天 线 上 传输 。 分集 编码 方法 不 需要 有 关 信 和 道 的 信息 。 信 和 号 在 发 时 
机 通过 空 时 编码 进行 编码 ， 以 便利 用 多 天 线 链 路 中 的 独立 衰落 。 使 用 分 集 编 码 技术 的 MIMO 系统 就 没 
有 波束 形成 或 阵列 增益 。 

如 果 MIMO 系统 根据 用 户 数 来 分 类 ，MIMO 的 类 型 就 可 以 分 成 单 用 户 MIMO (SU- MIMO) 和 多 用 
户 MIMO (MU- MIMO)。SU- MIMO 是 一 种 点 对 点 通信 ， 主 要 关心 链 路 的 存 吐 量 和 可 靠 性 ， 利 用 空 时 三 
和 流 复 用 传输 。 多 天 线 扩大 了 信号 处 理 和 检测 自由 度 。 因 此 ，SU- MIMO 提高 了 物理 层 的 性 能 

然而 ，MU- MIMO 系统 强调 系统 的 存 吐 量 。MIMO 既 应 用 在 物理 层 也 应 用 到 链 路 层 。 在 链 路 层 ， 多 
址 接 入 协议 在 空间 维度 中 极 大 地 提高 了 MIMO 天 线 阵列 的 性 能 优势 ， 比 如 ， 更 高 的 每 个 用 户 速率 或 信 
ee MIMO 震 归 多 用 户 信息 设计 用户 的 调度 以 使 提高 系统 的 在 吐 量 。 因 此 ，MU- MIMO 将 物理 

妈 的 编码 和 调制 与 链 路 层 的 资源 分 配 和 用 户 调度 结合 起 来 。 一 种 最 佳 的 用 en 于 顶 编码 的 选择 
Ce 使 用 MU- MIMO 技术 的 无 线 通 信 会 引起 跨 层 设计 问题 。 

MU- MIMO 系统 

我 们 已 经 简要 地 介绍 了 使 用 预 编码 技术 的 MU- MIMO 系统 的 体系 结构 ， 图 2-43 显示 了 无 线 广播 信 
道 构建 天 线 阵列 。 在 图 2-43 中 ， 带 有 多 个 发 射 天 线 的 基站 (BS) 向 移动 站 点 ( MS) 发 送 消 息 。 每 个 
移动 站 点 配备 了 一 个 M, 天 线 的 阵列 ， 有 具有 一 个 接收 实体 来 处 理 多 个 并 行 子 流 。 接 收 实体 首先 采用 最 小 
均 方 误差 (MMSE) 过 滤 和 连续 干扰 消除 (SIC) 处 理 每 个 子 流 。MMSE- SIC 模块 具有 两 个 方面 功能 一 一 
二 扰 归 零 和 干扰 消除 ， 既 可 以 删除 也 可 以 减少 来 自 那 些 已 经 检测 发 现 的 子 流 的 干扰 。 然 后 这 些 子 流 再 
通过 空间 解 复 用 合并 起 来 。 最 后 ， 在 接收 器 获得 输出 数据 流 ， 
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图 2-43 多 用 户 MIMO 系统 

因为 这 种 体系 结构 是 一 种 需要 利用 信道 信息 进行 多 用 户 调度 的 MU- MIMO 系统 ， 所 以 BS 使 用 控制 
器 来 收集 从 接收 器 反馈 的 信道 状态 信息 。 此 信息 包括 信道 方向 信息 (CDI) 和 信道 质量 信息 (CQ1). 
CDI 确定 了 波束 形成 的 方向 ， 而 CQI 调整 每 个 波 东 传播 的 功率 。 控 制 带 在 基站 上 使 用 信息 执行 时 空 处 
理 ， 如 多 几 户 调度 、 能 量 和 调制 和 月 适应 〈 如 自 适 应 编码 和 调制 (ACM ) ， 或 链 路 月 适应 ) 和 波束 形成 
控制 带 控 制 ACM 选择 编码 、 调 制 类 型 和 协议 参数 。 为 了 得 到 更 高 的 存 吐 率 ，ACM 的 选择 需要 根据 无 
线 电 链 路 状况 ,如 路 径 损 耗 、 十 扰 和 接收 右 的 灵敏 度 ， 以 提高 接收 天 线 的 使 用 效率 。 简 言 之 ， 基 站 结 
合 波束 形成 的 CSI 反馈 信号 信息 ， 在 发 送 消 息 的 同时 以 获得 最 佳 的 传输 模式 。ACM 摧 数 和 预 编 码 的 日 
的 旨 在 最 大 限度 地 提高 链 路 的 在 吐 量 和 最 大 限度 地 减少 错误 率 

MU- MIMO 系统 利用 用 户 的 分 集 (多 样 性 ) 进行 用 户 调度 。 有 效 的 用 户 调 度 在 时 间 和 空间 域 提 供 
了 很 多 优势 ， 如 空间 波束 形成 、 上 上 行 链 路 反馈 信号 和 高 级 接收 器 ， 它 可 以 与 改进 的 SIC 接收 相 结 合 ， 
例如 ， 所 有 发 射 天 线 可 以 根据 SIC 或 最 小 均 方 误差 (MMSE) 分 配给 最 佳 用 户 

总 之 ，MIMO 系统 并 行 地 通过 多 个 天 线 发 送 多 个 数据 流 ， 以 提高 可 靠 性 和 频谱 效率 ， 而 时 空 分 组 
编码 (STBC) 可 帮助 实现 全 面 的 发 射 分 集 。 波束 形成 能 够 通过 抵制 干扰 和 线性 地 结合 波束 来 提高 链 路 
的 可 靠 性 ， 发 送 和 接收 分 集 可 以 减少 衰落 的 波动 以 获得 分 集 增 益 。 空间 复 用 通过 不 同 的 发 射 天 线 在 同 
一 时 间 发 送 不 同 的 数据 信号 来 利用 复 用 增益 

MIMO 的 应 用 

CSM 增强 数据 率 演 进 (EDGE) 和 高 速 下 行 链 路 分 组 接 人 (HSDPA) 是 使 用 速率 适 配 算法 的 
MIMO 系 统 ， 以 便 根据 无 线 电 信道 的 质量 来 管理 编码 和 调制 的 方案 。 标准 3GPP 的 WCDMAZHSDPA 使 
用 带 有 用 户 调度 的 MU-MIMO .通过 在 每 个 40MHz 信道 上 有 四 个 空间 流 来 增加 多 输入 多 输出 (MIMO)， 
IEEE 802. 11n-2009 将 网 络 的 甜 吐 量 提 高 到 最 高 600Mbps。 此 外 ，TEEE 802. 11n 在 链 路 层 帧 进行 帧 
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开源 实现 2.2: 带 有 正 交 频 分 复 用 的 IEEE 802. 11a 发 射 机 

概述 

802. 11a 是 一 种 用 于 无 线 通 信 的 JEEE 标准 。 该 标准 采用 OFDM 调制 方案 ， 它 也 广泛 地 用 于 许多 其 
他 无 线 通信 系统 中 ， 包 括 WiMAX 和 LTE。 可 以 从 OpenCores 网 站 http: Wopencores. org 下 载 一 个 开放 源 
码 的 范例 ， 其 中 介绍 了 以 Bluespec 系统 Verilog 语言 实现 (BSV) 的 802. 11a 发 射 机 。 我 们 首先 在 此 给 
出 OFDM 发 射 机 中 的 模块 和 处 理 流程 概述 ， 然 后 学 习 卷 积 编 码 器 的 操作 

框图 

图 2-44 说 明了 OpenCores 802. 11a 发 射 机 的 体系 结构 ， 它 主要 由 控制 器 、 扰 码 器 、 卷 积 编码 器 、 交 
织 器 、 上 映射 器 、 遂 快速 传 里 叶 变 换 (IFFT) 和 循环 扩展 器 组 成 。 具 体 描 述 如 下 : 

日 控制 器 : 控制 器 接收 来 自 MAC 层 的 数据 分 组 作为 流 数据 (PHY 有 效 载 荷 ) ， 并 为 每 个 数据 分 组 

创建 头 部 字段 
9 扰 码 器 : 扰 码 器 将 每 个 数据 分 组 与 一 个 伪 随 机 位 模式 进行 异 或 运算 。 


物理 层 和 





。 卷 积 编码 器 : 卷 积 编码 器 为 它 所 接收 的 每 一 位 生成 两 位 的 输出 

e。 交织 器 ; 交织 器 重新 排序 在 每 个 数据 分 组 中 的 位 。 它 以 分 组 大 小 为 48、96 或 192 位 的 块 来 操作 
OFDM 符号 ， 有 具体 取决 于 所 使 用 的 速率 

。 映射 器 : 映射 器 也 运行 在 OFDM 符号 级 。 它 将 交织 过 的 数据 翻译 为 64 复杂 数 ， 这 是 针对 不 同 频 
率 值 “音调 ”的 调制 值 : 

。 IFFT: IFFT 将 复杂 的 调制 值 映射 到 每 个 子 载波 上 并 执行 一 个 64 点 逆向 快速 傅 里 叶 变换 以 便 将 它 









































们 翻译 到 时 域 
e 循环 扩展 器 : 循环 扩展 器 通过 在 完 息 主 体 上 添加 头 部 和 尾部 来 扩展 IFFT 的 符号 ， 
Ia uv See ee we ye mw 
| 天 一 一 全 咱 一 一 ! 
| 
He| 。 控制 器 Ea 扰 码 器 | ew | 
1 1 
I 1 
交织 器 映射 器 | 
1 1 
1 | 
1 | 
| -下 -| IFFT 上- 和 一 一- 
! 1 
1 1 





图 2-44 802. 11a 发 射 机 的 框图 

OpenCores 802. 11a 发射 机 的 设计 仅 实现 802. 11a 规范 中 最 低 的 三 个 数据 传输 速率 ( 16，12， 
24| MB ) 。 在 这 些 速 率 下 ,“ 打 和 孔 纸 带 机 ”不 对 数据 进行 操作 ， 所 以 我 们 从 这 里 的 讨论 中 省 略 掉 

数据 结构 和 算法 的 实现 

最 上 部 的 模块 ， 称 为 Transmitter bsy， 处 理 传 输 流 量 。 流量 从 Controller. bsv 开始 ， 首 先 创 建 一 个 数 
据 关 部 (在 PHY 数据 分 组 格式 中 ， 信 号 字段 长 度 为 24 位 ) ， 然 后 从 MAC 层 得 到 数据 流 (在 PHY 分 组 

格式 中 的 数据 字段 ) 。 因此， 该 控制 器 具有 两 个 FIFO 输出 ; 一 个 是 由 24 位 元 素 组 成 的 toC (控制 元 

素 ) ， 另 一 个 是 包含 多 个 24 位 元 素 的 loS， 这 取决 于 MAC 层 数 据 长 度 (数据 元 素 )。 然 后 toS 数据 元 素 
输入 到 scrambler, bsv 中 并 与 位 伪 随 机 模式 进行 异 或 运算 ， 同 时 ， 将 toC 控制 元 素 传 递 到 Convolutional. bsv 
中 并 以 1/2 编码 速率 进行 编码 

在 下 一 轮 循环 中 ， 扰 码 数据 元 素 开始 编码 ， 仍 以 1/2 编码 速率 ， 因 为 支持 的 数据 传输 速率 只 有 6、 
12 和 24MB/s。，convolutional. bsv 将 24 位 的 输入 元 素 编码 成 一 个 48 位 编码 的 FIFO 元 素 (172 编码 率 ) 
interleaver bsv 从 FIFO 队列 中 获取 编码 位 并 对 OFDM 符号 进行 操作 ， 以 分 组 大 小 为 48 、96 或 192 位 进 
行 ， 具 体 根 据 使 用 的 速率 来 定 。 它 在 一 个 数据 分 组 内 重新 排序 位 

假设 每 个 分 组 每 次 只 操作 一 个 块 ， 那 么 这 意味 着 最 快速 度 可 以 预期 每 四 次 循环 仅 输出 一 次 ， 其 
中 一 个 192 位 分 组 块 的 大 小 需要 四 个 输入 编码 位 流 。mapper. bsv 将 交错 (交织 ) 位 (48 位 ) 直接 翻 
译 成 64 复杂 数据 (频率 “音调 ”) IFFT. bsv 执行 64 点 的 送 向 快速 倩 里 叶 变 换 ， 这 样 就 将 复杂 频率 
数据 翻译 转换 成 时 域 数 据 (IFFT 处 理 过 的 符号 带 有 64 个 复杂 数据 ) 。 OpenCores 的 802. 11a 发 射 机 提 
供 多 种 IFFT 的 实现 ， 并 提出 了 一 种 基于 四 点 蝴蝶 状 的 组 合 设 计 。 最 后 ， 由 CyclicExtender.， bsv 创建 

个 完整 的 发 送 消息 。 该 信息 结构 的 后 16 位 复杂 数据 是 由 输入 逆 快 速 倩 里 叶 变 换 的 结果 一 位 接着 一 

位 组 成 

为 了 避免 宛 长 叙述 ， 我 们 仅 详细 解释 图 2-45 中 关键 卷 积 编码 器 编程 实现 的 BSV 代码 分 段 。 图 2-46 
显示 了 一 个 卷 积 编码 器 的 电路 ， 它 可 以 简洁 地 描述 成 每 周期 带 有 移 位 寄存 器 和 多 个 或 门 的 位 。，History 
表示 是 由 移 位 寄存 器 中 的 输入 位 和 所 有 延迟 寄存 器 (Tb) 位 组 成 的 位 流 。 对 于 每 个 for 循环 选 代 ， 两 
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个 输出 编码 位 从 当前 和 输入 位 与 延迟 寄存 器 位 进行 OR 操作 而 产生 出 来 。 编 码 的 位 以 位 流 形式 存储 在 
rev output data。 每 个 延迟 寄存 器 newHistVal 的 值 将 保存 为 相同 数据 分 组 的 接 下 来 的 24 位 输入 
位 流 。 对 于 一 个 新 的 数据 分 组 ， 每 个 延迟 寄存 器 的 值 被 复位 至 零 。 








Bit#(n6) history; // Bit#(n6) means bit vector with 
length (n+6) 
if (input rate == RNone) // for new entry of the same 
packet at next Cycle 

history = {input data, histVval}; 
else 





history = {input data, 6'b0}; // for an new packet 


Bit#(nn) rev output data = 0; 
Bit#(1) shared = 0; 
Bit#(6) newHistVal = histVal; 


feor (Tnteder i = 07 1 < Valie0fl(N); Le 书 工 ) 

begin // encoding 
shared = input datal[li] “history[i + 4] “historyl[i + 
3] “hiastoryli + 0]; 





rev output data[(2*i)+0] = Shared^history [II + 
1];//output data A 
rev output data[(2*i)+1] = shared’history[i + 


5] ;//output data B 
// save the delay register status for next new 
entry 
// only last update will be saved 
newHistVal = {input datal[li], newHistVval[5:1]}; 
end 
// enqueue encoded bit stream 
RateData# (nn) retval = RateDatal 
rate: input rate, 
data: reverseBits(rev output data)}; 





outputQ.engq (retval); 


// setup for next cycle 
histVal <= newHistVal; 








图 2-45 ”Convolutional. bsv 中 的 代码 分 段 


练习 
当 你 使 用 图 2-46 中 所 示 的 卷 积 编码 器 对 这 些 位 进行 编码 时 ， 计 算 输 出 位 和 状态 。 在 表 2-9 中 总 结 
每 次 和 迭代 后 状态 和 输出 值 是 如 何 改 变 的 。 


表 2-9 卷 积 编码 器 的 输出 位 和 状态 








迭代 
输入 位 

移 位 Regs [543210] 
输出 [A，B] 
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< 上 一 一 > 输出 数据 A 
和 
1 
移 位 寄存 器 
ona ee a 
Reg#5 Reg#4 | Reg#3 | Reg#2 Reg#1 Reg#0 | 
> 二 ee 
:PY ~ 输出 数据 B 
图 2-46 定义 在 802.11a 中 的 卷 积 编码 带电 路 


历史 演变 : 蜂窝 标准 


蜂 帘 标准 经 历 了 从 1G、2G、3G 到 4GC 的 
是 以 模拟 形式 发 送 的 。 
准 就 是 其 中 非常 
LTE (长 期 演进 ) 


和 MIMO ， 
标准 是 4C 





例如 ， 


号 是 以 数字 形式 传输 的 ， 


演变 。 其 物理 层 属 性 如 表 2-10 所 示 。 在 1G 中 ， 
AMPS 或 TACS 标准 。 在 2G 中 ， 数 据 信 
流行 的 一 种 。3G 标准 为 多 媒体 和 扩 频 传输 提供 高 速 IP 数据 网 络 ， 包 括 CDMA2000 和 
现在 ，4G 标准 必须 支持 全 IP 交换 网 络 、 移 动 超 宽带 接 入 、 多 载波 传输 (OFDM ) 
或 者 所 谓 的 天 线 阵 列 或 智能 天 线 的 所 有 功能 。LTE- Advanced 和 WiMAX-m (IEEE802. 16m ) 
的 两 个 提案 。 此 外 ， 有 些 人 认为 ,支持 多 种 协议 的 融合 解决 方案 也 可 以 考虑 作为 4C。 


























软件 无 线 电 和 认 知 无 线 电 也 可 以 考虑 作为 4G 技术 。OFDM 技术 而 不 是 CDMA 被 采用 到 了 4G 中 ， 就 是 
因为 其 简单 的 调制 和 复 用 。 它 可 以 实现 在 4G 标准 指定 的 千 光 位 速度 要 求 。Turbo 码 用 于 4G， 以 尽量 减 
少 接 收 端 所 需 的 SNR。 
表 2-10 蜂窝 标准 的 物理 层 属性 
CSM 850/900/ UMTS (WCDMA ， 
蜂窝 标准 AMPS 人 LTE 
1800/1900 3GPP FDD/TDD) 
不 1G 2 3G 4G 
无 线 电信 号 ”| 模拟 数字 数字 数字 
调制 FSK GMS GES BPSK/QPSK/8PSK/I60AM | QPSK/160AM/640AM 
加 - 、 上 用 
( 仅 限 EDGE) “ 
多 址 接 人 FDMA TDMA/FDMA | CDMA/TDMA DL: OFDMAUL: SC-FDMA 
el 7 FDD FDD/TDD FDD+TDD (重点 FDD) 
EF F b + | 
| 
频道 带宽 30kHz 200kHz SMHz 1. 25/2. 5/5/10/15/20MHz 
和 本 124/124/374/299 > 200 用 户 每 蜂窝 
诗 道 333/666/832 信道 - 
信道 数 信 庆 | (g 个 用 户 信道 ) 联 湛 于 服 务 (对 于 5MHz 频谱 ) 
14. 4kbps 144kbps ( 移动 ) /384kbps | DL: 100 
峰值 数据 率 信号 速率 =10kbps | 53.6kbps (GPRS) | (步行 ) /2Mbps (室内 ) / | MbpsUL: 50Mbps 








384kbps (EDGE) 





10Mbps ( HSDPA) 





(对 于 20 MHz 频谱 ) 


因此 ， 
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历史 演变 : LTE- Advanced 与 IEEE 802. 16m 对 比 

LTE 标准 是 40 的 前 期 技术 ， 但 它 并 不 完全 符合 TIMT- Advanced 的 要 求 。 因 此 ，LTE-advanced 标准 ， 

一 种 LTE 的 进化 ， 应 达到 或 超过 IMT- Advanced 的 要 求 ，LTE-advanced 向 后 与 LTE 兼容 ， 它 具有 多 

个 技术 特点 ， 如 协调 多 点 传输 和 接收 、 支 持 更 宽 的 带宽 、 空 分 复 用 (SDM) 以 及 中 继 功 能 。 中 继 功 能 
增加 了 高 数据 速 率 的 履 盖 面 、 组 的 移动 性 、 临 时 网 络 部 署 ， 并 提供 新 领域 的 履 盖 .LTE- advanced 也 采 
用 在 20MHz 波段 的 频谱 聚集 块 以 便 获 得 怕 辑 信道 带宽 .这 可 能 会 导致 每 个 方向 ， 无 论 下 行 还 是 上 行 ， 
达到 总 共 100MHz (5 块 ) 的 传输 。 支持 高 级 服务 的 LTE-advanced 增强 峰值 在 高 移动 性 的 数据 速率 为 
100Mbhs， 在 低 移 动 性 时 为 1Chps， 与 WiMAX 不 同 ，LTE- advanced 在 上 行 链 路 (UL) 上 应 用 SC-FD- 
MA 两 者 在 下 行 链 路 (DL) 上 都 使 用 OFDMA 因此 ，LTE-Advanced 技术 比 WiMAX 技术 更 加 节能 

WiMAX 是 一 种 由 IEEE 802. 16 开发 的 标准 ， 它 的 演变 标准 WiMAX- m 是 LTE-advanced 的 一 种 赫 
代 WiMAX-m 是 对 TEEE 802. 16e 标准 在 PAR P802. 16m 下 的 一 项 修正 ”WiMAX-m 和 LTE-advanced 配 
备 了 多 项 “ 魔 弹 ”技术 一 一 即 OFDM、MIMO 和 智能 天 线 。 这 些 技术 使 全 IP 网 络 成 为 可 能 。LTE- Ad- 
vanced 和 WiMAX-m 两 者 都 支持 全 IP 分 组 交换 的 网 络 、 移 动 超 宽带 接 入 和 多 载波 传输 

移动 WiMAX ( [IEEE 802. 16e) 、WiMAX-m (IEEE 802. 16m)、3GPP-LTE 和 LTE-advanced 标准 的 物 
理 层 属性 在 表 2-11 中 列 出 : WiMAX-m 的 下 行 峰值 数据 率 预 计 将 超过 350Mbps， 而 LTE- advanced 的 则 
是 1Gbps， WiMAX 和 LTE-Advanced 履 盖 面积 几乎 具有 相同 的 蜂 帘 大 小 ， 例 如， 优化 蜂 宽 大 小 从 1 ~5 
公里 。 当 蜂窝 大 小 为 30 公里 时 ， 性 能 也 还 算 不 错 。 如 果 蜂 窜 大 小 高 达 100 公里 ， 系 统 仍 然 应 该 具有 可 
接受 的 性 能 WiMAX-m 的 移动 性 与 LTE-advanced 非常 相似 ， 支 持 大 约 350 ~ 500 公里 /小 时 。 对 于 
WiMAX-m， 下 行 链 路 的 频谱 效率 大 于 17.5bps/Hz， 而 对 于 上 行 链 路 ， 超 过 10 bps/Hz, LTE-advanced 


表 2-11 标准 WiMAX (IEEE802. 16e) 、WiMAX-m (IEEE802. 16m) 、 
3GPP- LTE 和 LTE-advanced 的 物理 层 属性 


3GPP-LTE 























a 移动 WiMAX (3C) WiMAX=m (4G) 
特征 Ne | ed (pre-4G) LTE=adv (4G) 
(IEEE 802. 16e) (IEEE 802. 16m) | 
(E-UTRAN) 
DL: OFDMA DL: OFDMA 
多 路 方式 无 线 MAN-OFDMA 无 线 MAN-OFDMA 
UL: SC-FDMA | UL: SC-FDMA 
DL: 64Mbps (2x 2) | DL: > 350Mbps (4x 4) 
最 高 数据 速率 DL: 100Mbps DL: 1Cbps 
sin UL: 28Mbps (2x 2 | UL: > 200Mbps . 
(TX x RX) UL: 50Mbps UL: 500Mbps 
协作 MIMO) (10MHz) | (2x 4) (20MHz) | 
. | 5710/20MHz 以 及 更 高 带 ( 块 ， 每 个 
信道 带宽 1.25/5/10/20MHz ss 用 下 高 | | 25 -20MHz 有 《的 
(可 扩展 带宽 ) 20MHz) 
5 默认 ) 5 ~3( 认 ) 30km (合理 
盖 ( 蜂 帘 半 径 、 hh 《点 让 ) a Diem 1 =5km (由 型 ) Sm (默认) 30km 《合理 
峰 窒 大 小 ) 2 ~7km (在 空间 效率 平滑 地 降级 ) pk OOk 性 能 )， 高 达 100km (可 
下 1 天 5) y mm 
唤 30 -100km (系统 可 实现 ) | 接受 性 能 ) 
2 于 
. 120 ~350km/h， 最 多 350km/h， 最 高 达 
移动 性 襄 达 60 ~ 120km/l 上 高 达 250kmyh 
a ee SOO0km/h ee SO0km/h 
频谱 效率 ( bps/ DL: 6.4 (峰值 ) DL: >17.5 (峰值 ) Te DL: 30 (8 x 8) 
Hz) (TX x RX) | UL: 2.8 (峰值 ) UL: > 10 (峰值 ) 人 UL: 15 (4x 4) 
oe DL 有 2 2 或 2 区 4 或 
Sk . 或 DL:2x2 或 4x 
MIMO (TXxRX) | DL:2x 2 4xX2 或 4x4 


2x2 2 或 4x 4 或 8x8 


(大 线 技术 ) UL: 1x N( 协 作 SM) | UL: 1x 2 或 1x 4 
Uh 1 和 或 2 


或 2x 2 或 2x 4 





GSM/GPRS/ 
老 的 技术 IEEE 802. 16a ~d IEEE 802. 16e EGPRS/UMTS/ 
HSPA 


GSM/GPRS/EGPRS/ 
UMTS/HSPA/LTE. 
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在 频谱 效率 上 有 更 高 的 要 求 ， 对 于 下 行 链 路 为 30bps/Hz， 对 于 上 行 链 路 为 15bps/Hz。 WiMAX-m 和 
LTE-advanced 两 者 都 采用 MIMO 技术 ， 以 提高 空间 利用 率 。 过 去 的 WiMAX 是 IEEE 802. 16e， 而 LTE- 
advanced 的 前 身 是 GSM、GPRS、EGPRS、UMTS、HSPA 和 LTE 


2. 6 总 结 


在 本 章 中 ， 我 们 学 习 了 物理 层 的 属性 和 该 层 所 使 用 的 技术 ， 主 要 是 编码 和 调制 方案 。 已 经 对 流行 
的 线路 编码 方案 ， 包 括 NRZ、RZ、 曼 彻 斯 特 、AMI、mBNL、MLT 和 RLL， 以 及 对 分 组 编码 方案 (如 
4B/5B 和 8BAI0B 等 ) 做 了 介绍 ， 其 中 自 同 步 起 着 重要 的 作用 。 我 们 已 经 学 习 了 基本 的 调制 方案 ， 包 
括 ASK、PSK 和 FSK、 混 合 QAM， 以 及 更 高 级 的 技术 ， 包括 扩 频 技术 (DSSS、FHSS、CDMA) 、 多 载 
波 OFDM 和 MIMO， 在 给 定 的 带宽 和 信 曲 比 下 ， 发 送 更 多 位 的 挑战 一 直 都 是 创新 的 驱动 力 。 我 们 还 介 
绍 了 基本 的 多 路 复 用 用 方案 ,如 TDM、FDM 和 WDM。 总 之 ,使 用 哪 种 方案 取决 于 传输 介质 的 属性 、 信 

道 条 件 、 上 日 标 位 速率 。 对 于 有 线 链 路 ， 优 先 考虑 QAM、WDM 和 OFDM。、 对 于 脆弱 的 无 线 链 路 ， 高 级 系 
这 日 前 优先 选择 OFDM 、MIMO ey 

为 了 简单 起 见 ， 物 理 层 对 从 链 路 层 来 的 帧 不 如 区 分 。 因 此 ， 来自 链 路 层 的 帧 被 转换 成 原始 位 流 
并 发 送 到 物理 层 以 进一步 处 理 。 原 始 位 流 由 线路 编码 操作 并 调制 成 信号 ， 因 此 信和 号 可 以 通过 有 具有 特定 
传输 介质 的 物理 信道 传输 。 在 接收 端 ,信号 经 历 一 个 逆向 的 过 程 ， 并 转换 成 位 流 用 于 在 链 路 层 通 过 某 
种 机 制 即 成 帧 进行 定 界 。 成 巾 将 在 第 3 章 中 讨论 

如 果 信 道 容 量 超过 需求 ， 那 么 多 个 用 户 就 可 以 共享 一 个 物理 信道 。 复 用 技术 ， 如 FDM、WDM 、 
TDM 、 SS 、DSSS 、FHSS、OFDM 、SM 或 STC 可 用 于 物理 层 ， 使 多 个 用 户 能 够 访问 共享 物理 信道 。 相 应 
了 地 ， 为 了 访问 共享 信道 ， 链 路 层 必 须 提 供 一 个 仲裁 机 制 以 使 优化 使 用 并 对 信道 进行 访问 。 在 链 路 层 
实现 的 信道 接 入 机 制 包括 FEDMA 、WDMA 、TDMA 、CDMA 、DS-CDMA 、FH-CDMA 、OFDMA 、SDMA 和 
STMA. 

通过 信道 传输 的 信号 会 遭受 失真 、 干扰 、 品 声 和 其 他 信和 号 的 影响 ， 尤 其 通过 无 线 通 信 信 道 时 更 是 
如 此 。 内 为 在 传输 期 间 很 可 能 会 出 现 错误 ， 接收 器 必须 能 够 检测 到 这 些 错误 ， 为 了 解决 这 种 问题 ， 链 
路 层 可 能 丢 佐 、 纠 正 或 要 求 重 发 损坏 的 帧 : 因此 ， 在 链 路 层 使 用 差错 控制 功能 ， 人 
校 验 〈(CRC) ， 为 了 访问 信道 ， 链 路 层 必 须 检查 物理 信道 的 可 用 性 以 确定 它 是 否 是 闲置 /空闲 或 忙 -4 
这 是 分 组 模式 的 信道 接 人 方式 。 例如，CSMAZCD er 今 测 的 载波 监听 多 路 接 入 ) 适用 于 ee 
道 ， 而 CSMAZCA 〈 带 有 冲突 避免 的 载波 侦 听 多 路 接 人 ) 适用 于 无 线 信道 。 这 些 将 在 第 3 章 中 介绍 


常见 陷阱 
数据 速率 、 位 速率 和 符号 率 
数据 速率 ， 也 称 为 位 速率 ， mie Merrett a 数据 速率 的 单位 是 位 / 秒 或 
bps。 总 的 位 速率 、 原 始 位 速率 、 线 路 速率 或 数据 信号 速率 就 是 每 秒 经 过 通信 链 路 传输 的 位 数 ， 包 括 了 
数据 和 协议 开销 。 在 数字 通信 中 ， 一 个 符号 可 以 代表 一 位 att 符号 率 或 位 速率 ， 是 在 数字 
调制 信号 或 线路 编码 下 每 秒 殉 改 状态 的 符号 数量 。 符 号 速率 的 单位 是 符号 / 秒 ， 或 波 特 。 在 基带 信道 
中 ， 最 大 波 特 率 称 为 奈 硅 斯 特 速率 ， 也 就 是 信道 带宽 的 一 半 ， 
在 计算 中 和 信和 号 处 理 中 的 带宽 
在 计算 中 的 带宽 指示 数据 速率 ， 也 称 为 网 络 带 宽 ， 单 位 是 bps。 信 号 处 理 中 的 带宽 可 以 指 基带 带宽 
或 通 带 带宽 ， 有 具体 取决 于 上 下 文 。 基 党 带宽 是 基带 信号 上 截止 频率 。 通 带 带 宽 是 指 通 带 信 号 的 上限 和 
下 限 截止 频率 之 差 。 信 号 处 理 中 的 带宽 通 常 是 用 桩 效 (Hz) 来 测量 的 
窑 填 、 宽带 、 广 带 、 超 宽带 
军训 : 在 无 线 通 信 中 ， 窒 带 意 味 着 信道 足够 罕 ， 在 该 信道 上 的 频率 响应 是 平坦 的 ， 即 频率 响应 值 
是 相似 的 ,频率 响应 是 对 信道 上 的 输入 信号 响应 产生 的 系统 输出 频谱 的 测量 在 一 音频 信道 中 ， 窒 带 
表示 声音 占据 了 很 窄 范围 的 频率 
宽带 〈wideband) : 在 通信 中 ， 宽 带 用 来 描述 频谱 中 范围 广泛 的 频率 。 它 与 罕 带 相反 。 当 信道 县 有 
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高 数据 速率 时 ， 它 就 需要 使 用 宽带 的 带宽 。 

广 带 (Broadband) : 在 电信 中 , 广 带 (俗称 为 “宽带 ") 是 指 处 理 比 较 宽广 频率 范 肝 的 可 分 为 信 
道 的 一 种 信 令 方法 。 在 数据 通信 中 ， 它 意味 着 多 片 数 据 同时 发 送 以 增加 传输 的 有 效 速 率 

超 宽带 : 这 是 一 种 用 于 非常 低 功 耗 的 短 距 离 并 使 用 了 大 部 分 无 线 电 频谱 的 高 带宽 通信 的 无 线 电 
技术 


PHY 


流行 的 计算 机 网 络 教 科 书 很 少 用 专门 的 一 董 来 介绍 物理 层 ， 并 且 即 使 介绍 了 它们 也 没有 完全 涵盖 
所 有 主题 。 对 更 多 细节 感 兴趣 的 读者 就 需要 钻研 数据 通信 方面 的 教科 书 。Proakis 的 书 对 数字 通信 进行 
了 了 全面 的 介绍 。 它 介绍 了 研究 生 课程 中 的 通信 理论 。Sklar 的 书 是 另 一 本 很 好 的 涵盖 多 种 类 型 的 数字 通 
信 ， 同 时 将 理论 和 应 用 结合 起 来 的 教科 书 。 正 如 书 名 所 暗示 的 ，Forouzan 和 Fegan 试图 平衡 物理 层 和 链 
路 层 以 及 上 层 网 络 互联 通信 的 处 理 ， 它 可 以 为 电气 工程 专业 的 学 生 提 供 比 其 他 教科 书 更 多 的 计算 机 科 
学 特色 。 同 样 ， 在 整 章 中 ， 我 们 试图 给 计算 机 科学 专业 的 学 生 更 多 电气 工程 特色 和 一 些 开源 特点 。 由 
Charan Langton 管理 的 Web 站 点 ComplextoReal. com 上 提供 了 有 关 模 拟 和 数字 通信 各 种 主题 的 在 线 教程 
集合 。Harry Nyguist 的 文章 “Certain Topics in Telegraph Transmission Theory” 以 及 Claud Elwood Shannon 
的 “A Mathemnaticae Theory of Communicotion” 和 “Communication in the Presence of Noise” 是 现代 数字 
通信 的 基础 。 

® J.G.Proakis, Digital Communications, McGraw-Hill, 2007. 

® B.Forouzan and S. Fegan, Data Communications and Networking, MceGraw-Hill, 2003. 

e C.Langton, “Intuitive Guide to Principles of Communi-cations,” http: //www. complextoreal. com/ 
tutorial. htm. 

se B.Sklar, Digital Communications, 2nd edition, Prentice-Hall, 2001. 

e H.Nyquist, “Certain Factors Affecting Telegraph Speed,™” Bell System Technical Journal, 1924, and 
”Certain Topics in Telegraph Transmission Theory,™ Transactions of the American Institute of Electrical 
Engineers, Vol.47, pp.617 -644 ，1928. 

e H.Nyquist, “Certain Topics in Telegraph Transmission Theory,” Proceedings of the IEEF Vol.90, 
No. 2, pp. 280 - 305, 2002. ( Reprinted from Transactions of the AIEE February, pp. 617 — 644, 
1928. ) 

® C.E.Shannon, “A Mathematical Theory of Communication,” Bell System Technical Journal, Vol.27, 

pp. 379 ~ 423, pp. 623 -~656, July & October 1948. 
C. E. Shannon, “Communication in the Presence of Noise,™” Proceedings of the IEEE, Vol. 86, No.2, 


1998. ( Reprinted from Proceedings of the [RE, Vol.37, No.1, pp. 10 -21，1949. ) 


扩 频 

Lamarr 和 Antheil 共同 发 明了 早期 形式 的 扩 频 通信 技术 。1941 年 6 月 ， 他 们 提交 了 “secret commu- 
nication system” 思 想 专利 申请 ， 获 得 美国 专利 2292387。 这 就 是 以 跳 频 扩 频 形式 诞生 的 扩 频 。 愿 意 对 
扩 频 理论 做 进一步 研究 的 读者 可 以 参阅 Torrieri 的 书 。Nayerlaan 的 报告 介绍 了 扩 频 通信 的 基本 概念 和 
应 用 

e H.Lamarr and G. Antheil ，“Secret Communication System,” U.S. Patent 2, 292, 387, Aug. 1942. 

® D.Tormeri, Principles of Spread-Spectrum Communication Systems, Springer, 2004. 


® J.D. Nayerlaan, “Spread Spectrum Applications,” Oct. 1999 http: //sss-mag. com/sstopics. html. 


OFDM 正 交 频 分 多 路 复 用 
沿 着 扩 频 ，OFDM 已 经 演变 了 足够 长 的 时 间 ， 其 成 果 终 于 凝结 为 几 本 书 。 以 下 书籍 介绍 了 OFDM 
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系统 的 设计 问题 .Li 和 Stuber 的 书 对 OFDM 的 理论 和 实践 进行 了 全 面 的 讨论 。Chiueh 和 Tsai 的 书 ， 在 
介绍 OFDM 接收 需 设 计 之 前 ， 对 数字 通信 音 景 进行 了 简洁 而 全 面 的 介绍 ， 对 于 物理 IC 实现 的 便 作 设计 
问题 也 进行 了 介绍 ，Hanzo 和 Munster 的 书 深入 地 介绍 了 OFDM、MIMO- OFDM 和 MC-CDMA。 
e T.Chiueh and P. Tsai, OFDM Baseband Receiver Design for Wireless Communications, Wiley, 2007. 
e 1. Hanzo, M. Mii nster, B.J. Choi，and T. Keller, OFDM and MC-CDMA for Broadband Multi-User 
Communtications, WLANs and Broadcasting, Wiley-IEEE Press, 2003. 
® Gi and GStuber, Orthogonal Frequencey Division Multiplexing for Wireless Communications, Spring- 
er, 2006. 
MIMO 
MIMO 技术 仍然 是 一 个 很 新 的 主题 。Oestges 的 书 为 MIMO 信道 的 时 室 划 分 提出 了 深入 的 见解 。 他 
将 传播 、 信 道 建 模 、 信 号 处 理 以 及 时 空 编码 关联 起 来 。Kim 的 论文 就 是 关于 一 个 用 于 WCDMAZHSDPA 
的 使 用 用 户 调度 、 空 间 波 束 形 成 和 反馈 信号 来 控制 系统 的 多 用 户 MIMO 系统 。Gesbert 的 论文 讨论 了 多 
用 户 MIMO 以 及 关于 MIMO 系统 的 其 他 理论 
® C. Oestges and B. Clerckx, MIMO Wireless Communications: From Real-World Propagation to Space- 
Time Code Design, Computers—Academic Press, 2007. 
® DD. Cesbert and J. Akhtar, * Breaking the Barriers of Shannon Capacity: An Overview of MIMO Wireless 
Systems,，” Telenor’s Journal: Telektronikk, pp.53—64, 2002. 
® D.CGesbert, M. Kountouris, R. Heath, C. Chae, and T. Salzer, “From Single User to Multiuser Com- 
munications: Shifting the MIMO Paradigm,™” /EEE Signal Processing Magazine, Vol.24, No.5, 
pp. 36 -46 ，2007. 
® D.Gesbert, M. Shafi, D. Shiu, P. Smith，A, Naguib, et al. , “From Theory to Practice: An Over- 
view of MIMO Space-Time Coded Wireless Systems,” IEER Journal on Selected Areas in Communica- 
tions, Vol.21, No.3, pp:281 - 302 ，Apr 2003. 
e SS. Kim, H. Kim, C.Park, and K. Lee, “On the Performance of Multiuser MIMO Systems in WCD- 
MA/HSDPA: Beamforming, Feedback andUser Diversity” , IEICE Transactions on Communications, 
Vol. E89-B, No.8, pp.2161-2169, 2006. 
开发 环境 
在 计算 机 网 络 中 ， 消 息 从 一 个 节点 经 过 链 路 发 送 色 男 一 个 节点 ， 其 中 信号 是 在 物理 层 处 理 的 。 事 
实 上 二 ， 其 些 信 号 既 可 以 在 硬件 也 可 以 在 软件 上 上 处理，Mitola 论文 中 提出 了 软件 定义 无 线 电 ， 通 过 在 通 
用 处 理 带 上 上 相关 软件 中 的 无 线 电 函 数 用 于 信号 处 理 的 步 又 ， 如 调制 和 解 调 。CNU 无 线 电 项 目 沿 着 这 条 
路 线 提供 了 开放 源码 的 解决 方案 
虽然 信号 处 理 部 分 可 以 在 软件 中 实现 ， 但 通信 系统 仍然 需要 硬件 平台 来 传输 信号 。 在 硬件 平台 
的 组 件 可 以 包括 ADZDA 转换 尖 、 功 率 放大 器 (PA) 、 混 频 器 、 振 荡 器 、 锁 相 环 (PLL) 和 微 控制 器 或 
微 处 理 带 。 这 些 组 件 既 可 以 是 模拟 的 也 可 以 是 数字 集成 电路 的 。 因 此 ， 需 要 模拟 电路 设计 和 数字 电路 
设计 工具 以 便 开 发 用 于 通信 系统 的 硬件 平台 。 例 如 ，MATLAB 和 Simulink 可 用 于 系统 的 分 析 、 设 计 和 
模拟 。Verilog (系统 的 Verilog) 和 VHDL 有 助 于 设计 模拟 仿 丰 数字 集成 电路 (IC)。 已 经 开发 出 从 
MATLAB /Simulink 模型 到 HDL 模型 的 自动 转换 工具 ， 以 便 加 快 数字 集成 电路 系统 设计 。SPICE (强调 
模拟 集成 电路 的 模拟 项 目 ) 和 Agilent ADS (先进 设计 系统 ) 是 模拟 仿真 集成 电路 设计 和 射频 IC 设计 
的 工具 。 参 考 资料 如 下 : 
e J. Mitola, “Software Radio Architecture: A Mathematical Perspective, “JEEE Journal on Selected Are- 
as in Communications Vol 17, No.4, pp. 514—538, Apr. 1999. 


e GNU Radio Project: http: /A/gnuradio. org/ redmine/ wiki/ gnuradio. 

® The MathWorks: A Software Provider for Technical Computing and Model-Based Design, http: // 
www. mathworks. com/. 

® VASG: Maintaining and Extending the VHDL Standard (TEEE 1076), http: //www. eda. Org/ vasg/. 
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® [EEE P1800: Standard for System Verilog: Unified Hardware Design, Specification and Verification 
Language, http: A/www. eda. org/sv-iee e1800/. 

© SPICE: A General-Purpose Open Source Analog Electronie Cireuit Simulator, http: A/bwre. eecs. 
berkeley. edu/ Classes/ IeBook/SPICEA. 

® Agilent Technologies Advanced Design System ( ADS) 2009: A High-frequeney/ High-speed Platform 
for Co-design of Integrated Circuits (IC ) ，Packages，Modules and Boards, http: A/www. home. agi- 


lent. com/. 


常见 问题 解答 
1. 什么 是 位 速率 和 波 特 庚 ? 
答 : 位 速率 (或 数据 速率 ): 单位 时 间 传 输 的 位 数 
波 特 率 (或 符号 率 ): 单位 时 间 内 传输 的 符号 数 ， 
采样 定理 、 奈 硅 斯 特定 理 和 香农 定理 之 间 的 区 别 是 什么 ? 
答 : 采样 定理 : 计算 在 多 大 采样 率 下 ,信号 可 以 唯一 地 重 构 
众 硅 斯 特定 理 : 计算 无 噪声 下 的 最 大 数据 速率 
香农 定理 : 计算 噪声 信道 下 的 最 大 数据 传输 率 
3. 在 数字 通信 中 ， 笃 医 使 用 开 么 样 的 信和 号， 为 什么 呢 ? 
答 : 在 数字 通信 中 ， 通 常 使 用 周期 性 模拟 信号 和 非 周 期 性 数字 信和 号， 因为 前 者 需求 较 少 的 带宽 而 后 少 用 
来 表示 数字 数据 
4. 与 模拟 信号 相 比 ， 数 字 信 和 号 有 哪些 优点 ” 
答 : 数字 信和 叶 : 对 品 声 具有 更 大 的 免疫 性 ， 并 且 当 信和 叶 传 输 通 过 传输 介质 时 更 容易 恢复 信号 
模拟 信号: 易于 被 噪声 和 十 扰 破 坏 ， 更 难以 完全 恢复 . 
es i 么 在 物理 层 需 要 线路 编码 ? 
: 线路 编 公 可 以 防止 基线 漂移 各 引入 直流 分 量 ， 并 可 以 启用 自 同步 ， 提 供 错 误 检 测 和 纠正 ， 增 加 信 
对 只 志和 于 拓 的 免疫 力 
6. 哪些 因素 可 能 会 削 吕 物 理 层 的 传输 能 力 ， 尤其 是 在 无 线 信道 中 ? 
答 : 误 减 、 误 落 、 失 真 畸 变 、 干 扰 和 噪声 
7. 什么 是 星座 图 ? 
答 : 它 是 一 种 用 在 模拟 信和 各 和 其 相应 的 数字 数据 模式 之 间 映 射 的 工具 
8. 什么 是 数字 通信 中 的 基本 调制 ? 
答 : ASK 、FSK 和 PSK 是 数字 通信 中 的 三 种 最 基本 的 调制 
ASK 调制 : 用 不 同 的 载波 振幅 表示 数字 数据 。 
FSK 调制 : 用 不 同 的 载波 频率 表示 数字 数据 ， 
PSK 调制 : 用 载波 的 相位 ， 而 不 是 相位 的 变化 ， 表 示 数 字数 据 
QAM 调制 : 将 ASK 和 PSK 结合 起 来 改变 载波 振幅 和 相位 ， 以 形成 不 同 信号 元 素 的 波形 。 
9. 在 数字 通信 中 ， 为 什么 通过 高 频 信 道 传输 的 信号 必须 进行 调制 ? 
答 : 如 果 基 宙 数 字 信 号 〈 华 有 较 低 频率 ) 想 要 通过 高 频 信 道 ， 它 就 必须 要 由 正弦 载波 承载 。 换 句 话 来 
说 ， 信 号 必须 调制 到 高 频 载波 上， 以 便 数据 信号 能 够 传输 通过 信道 
10. 为 什么 要 多 路 复 用 ? 
答 : 当 信 道 的 党 宽 超 过 数据 流 所 雷 要 的 带宽 时 ， 信 道 就 可 以 由 多 个 用 户 共享 ， 以 便 提 高 信道 的 利用 率 
11. 扩 频 有 哪些 优点 ? 
答 : 扩展 后 噪声 似 的 信号 就 很 难 检 测 和 干扰 ， 额 外 的 完 余 可 用 来 减少 对 无 线 通 信 的 窃听 、 和 干扰 、 噪 声 
年 脆 缠 性 ， 
12. OFDM 技术 的 主要 特点 是 什么 ”为 什么 4C 选用 OFDM 而 不 是 CDMA? 
答 : OFDM 的 主要 特征 : 子 载波 的 正 交 性 ， 人 允许 数据 在 子 信道 上 上 同时 传输 ， 
OFDM 技术 的 优点 : 


[4 
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) 将 多 路 复 用 、 调 制 和 多 载波 结合 起 来 
2) 比 CDMA 更 总 的 速率 〈 一 种 扩 频 技术 ) 
13， 比 较 传 统 的 无 线 电 系统 与 软件 无 线 电 系统 
答 : 软件 无 线 电 尽 可 能 多 地 在 软件 中 实现 ， 用 于 信号 处 再 的 无 线 电 功能 ， 而 不 是 用 于 传统 无 线 电 系统 中 
的 专用 电路 。 此 外 ， 在 软件 无 线 电 系 统 中 的 调制 和 和 解 调 功能 也 由 软件 程序 执行 ， 而 不 是 硬件 设备 实现 . 
软件 无 线 电 的 优点 : 
1) 对 不 同 的 标准 ， 更 加 灵活 性 ， 特别 是 有 具有 可 重 配 置 的 硬件 以 便 支持 具有 更 高 频率 的 信号 处 理 。 
2) 降低 了 切换 到 其 他 标准 的 成 本 费用 和 进入 市 场 的 时 间 。 


练习 


动手 练习 

1 在 www. openeores. org 中 查找 开 总 结 与 网 络 相 关 的 模块 ， 并 填 入 到 表 中 在 表 中 ， 比 较 它 们 的 协议 屋 、 日 

的 、 编 程 语 言 和 关键 实现 算法 或 机 制 

在 www. openeores. org 找 出 PHY (物理 ) 层 模块 ， 对 于 每 个 异 块 ， 摘 述 它 是 如 何 实现 的 ,也 就 是 说 ， 算 

法 或 机 制 由 的 哪 一 部 分 被 执行 或 者 哪 一 部 分 没 被 执行 : 把 你 的 讨论 与 草 所 摘 述 的 算法 或 机 制 结合 

起 来 

3. CNU Radio 是 一 套 软 件 无 线 电 系统 软件 包 . 在 安装 了 Linux 操作 系统 的 机 器 上 上 构建 CNU 无 线 电 系统 ， 

a 从 http : Fa org/redmine/ wikiAgnuradio/ Download 下 载 最 新 稳定 版 本 的 GNU Radio， 

b. 阅读 从 http: /A/gnuradio. org/ ~ ~Vx redmine/wiki/gnuradio/BuildCuide 下 载 的 说 明 ， 按 照 其 中 的 指示 ， 建 
立 一 个 CNU 无 线 电 系统 。 

.为 CNU Radio 安装 依赖 包 ， 参 照 在 CNU Radio Web 站 点 上 的 讨论 ， 

1 许多 软件 无 线 电 的 例子 位 于 文件 末 /usr/share/gnuradio/exampl 内 。 运 行 示 例 ... /gnuradio/examples/audi- 

o/dial tone. py， 这 个 示例 就 像 一 个 用 任何 编程 语言 (如 C++ 、Java 或 Python) 编写 的 “Hello World” 

例子 ， 洽 试 运行 更 多 的 例子 〈 提 示 : GNU 的 Radio 软件 包 已 收集 在 Fedora 库 中 。 很 容易 利用 yum 或 rpm 

工具 来 安装 这 个 软件 包 ) 。 

. 在 机 占 上 安装 从 http: /Awww. joshknows. com/greGRC 下 载 的 CRC 工具 (GNU Radio 手册 )。，GCRC 有 助 于 

CNU Radio 的 研究 学 习 。 现 在 利用 GRC 的 工具 来 设计 如 下 的 系统 : 

a 可 以 过 滤 信 道 的 一 个 系统 。 

b. QAM 调制 带 / 解 调 器 系统 ， 

(提示 : 你 可 以 参考 由 Naveen Manicka 所 著 的 “CNU Radio Testbed”.) 


书面 练习 
1. 为 件 和 数据 沉 涟 营 琢 东 为 周涛 性 的 数字 入 号 ? 为 什么 调制 信号 表示 为 韭 周 期 性 的 模拟 信号 ? 
2. 比较 表示 下 询 信 和 号 需要 的 频率 数量 和 渭 宽 大 小 ， 
周期 性 模拟 
b. 非 周期 性 模拟 
c 周期 性 数字 
d4. 非 周 期 性 数字 
3. 衰落 和 衰减 之 间 的 区 别 是 a 
4. 噪声 和 十 扰 之 间 的 区 别 是 什么 
5. 什么 是 sdr (信号 数据 比 ) 和 SNR ( 信 噪 比 )? 它们 如 何 用 于 评估 ?7 
6. 分 别 在 直线 传播 、 反 射 、 折 射 和 衍射 中 比较 高 频 信 号 和 低频 信号 的 功能 ， 
7. 在 单 极 性 NRZ-L、 极 性 NRZ-L、NRZ-I 和 RZ、 曼 彻 斯 等 、 差 分 曼彻斯特 、AMI 和 MLT-3 中 ， 哪 种 方案 
分 别 与 同步 、 基 线 漂移 、 直 流 分 量 尤 关 ? 
8. 使 用 单 极 性 NRZ-L、 极 性 NRZ-L、NRZ-I 和 RZ 分 别 绘制 以 下 数据 流 的 波形 ， 计 算 sdr 值 和 平均 波 特 率 
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10. 


a. 101010101010 
b. 111111000000 
c 111000111000 
d. 000000000000 
e. 111111111111 


- 使 用 曼彻斯特 和 差分 曼彻斯特 方案 绘制 以 下 数据 流 的 波形 。 计 算 sdr 值 和 平均 波 特 率 。 


a. 101010101010 
b. 111111000000 
c 111000111000 
d. 000000000000 
e. 111111111111 
使 用 MLT-3 方案 绘制 以 下 数据 流 的 波形 。 计算 sdr 值 和 平均 波 特 率 
a. 101010101010 
b. 111111000000 
6. 111000111000 
d. 000000000000 
e111111111111 


.给 定数 据 流 的 位 速率 为 1Mbps 、2Mbps 或 54Mbps， 计 算 使 用 BASK、BPSK、QPSK、16- PSK、4- QAM 的 


BFSK 16- QAM 和 64- QAM 调制 的 波 特 率 ， 


. 给 定 波 特 率 为 8kBd 和 64kBd,， 计算 BFSK 、BASK 、BPSK 、QPSK 、16- PSK 、4- QAM 、16- OAM 和 64-QAM 


调制 的 位 速率 。 


3. 给 定位 速率 56kbps 或 256kbps 的 数据 流 ， 如 果 将 11 位 或 13 位 巴克 码 用 做 PN 码 来 扩展 数据 流 ， 那 么 码 


片 速度 和 处 理 增益 为 多 少 ? 


. 同步 CDMA 和 异步 CDMA 之 间 主 要 的 区 别 是 什么 ? 

- 比较 CDMA 中 使 用 的 PN 人 码 和 正 交 人 码 。 为 什么 使 用 PN 码 比 正 交 码 能 够 支持 更 多 的 用 户 ? 

. 我 们 如 何 才 能 知道 在 异步 CDMA 中 使 用 的 两 个 PN 码 是 相关 的 还 是 不 相关 的 ? 

. 我 们 如 何 知道 在 同步 CDMA 中 使 用 的 两 个 码 是 否 正 交 ? 

. 解释 为 什么 扩 频 可 以 减轻 环境 噪声 并 能 去 掉 来 自 相 邻 用 户 的 罕 带 或 宽带 噪声 为 什么 它 能 够 提供 更 好 


的 隐私 保护 ? 


在 FHSS 中 ， 黄 个 发 射 站 有 可 能 在 同一 时 间 跳 到 相同 的 子 信 道上 ， 即 产生 碰撞 吗 ? 证 明 你 的 答案 。 
.在 OFDM 中 ， 用 以 实现 多 载波 机 制 的 主要 组 成 件 是 什么 一 个 数据 流 如 何 利 用 多 个 载波 并 通过 OFDM 


信道 ? 


. 在 OFDM 中 ， 两 个 信号 相互 正 交 的 标准 是 什么 ? 
. 具有 或 不 具有 信道 状态 信息 的 情况 下 ，MIMO 系统 的 优点 和 缺点 是 什么 ? 
. 单 用 户 MIMO 和 多 用 户 MIMO 之 间 的 主要 区 别 是 什么 ? 
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通过 物理 链 路 从 一 个 节点 到 另外 一 个 ee eden di 简单 。 
为 了 成功 地 进行 数据 传输 ， 首 先 必须 解决 几 个 问题 。 举 例 来 说 ， 相 邻 链 路 对 之 间 的 串扰 噪声 可 能 意外 
地 损害 传输 信和 号 并 导 玛 错 误 ， 因 此 为 了 可 靠 地 传输 数据 ， 链 路 层 需要 合适 的 错误 控制 机 制 。 发 射 占 也 
可 能 以 比 接收 闫 能够 处 理 的 速度 更 快 的 速度 进行 传输 ， 如 果 这 种 情况 发 生 ， 接 收 需 就 必须 通知 数据 包 
的 源 所 在 位 置 让 发 射 机 放 慢 速度 。 如 果 多 个 节点 共 享 一 个 局 域 网 ， 就 需要 有 一 种 仲裁 机 制 来 决定 谁 可 
以 传输 。 除 了 所 有 |: 述 情 况 外 ， 我 们 需要 互联 局 域 网 ， 即 我 们 需要 桥接 不 同 的 局 域 网 以 扩展 数据 包 的 
转发 而 不 再 局 限 在 单个 局 域 网 内 :虽然 这 些 问题 需要 由 物理 链 路 以 上 的 一 组 功能 来 解决 ， 但 在 OSI 体 
系 结构 中 的 链 路 层 为 上 上 层 功能 管理 着 物理 链 路 ， 从 而 使 它们 能 够 免除 控制 物理 层 链 路 的 繁琐 革 作 。 链 
路 层 极 大 地 减轻 了 眶 层 协议 的 设计 ， 并 使 之 几乎 能 够 独立 于 物理 传输 特性 。 
在 本 章 中 ,我 们 介绍 : 1) 链 路 层 提 供 的 功能 或 服务 ; 2) 流行 的 实际 链 路 层 协 议 ; 3) 一 组 先 先 择 
的 链 路 层 技 术 的 开源 软件 和 硬件 实现 集合 。3. 1 节 讨 论 了 在 设计 链 路 层 功能 时 考虑 的 一 般 间 题 ， 包括 
成 帧 、 寻 址 、 错 误 控 制 、 流 量 控制 、 访 问 控制 ， 以 及 与 其 他 层 的 接 吕 。 我 们 说 明了 网 络 适 配器 的 接口 
和 数据 包 流 ， 以 及 Linux 中 IP 上层 的 函数 调用 ， 作 为 1.5 节 中 数据 包 的 一 个 补充 。 
现实 世界 中 各 种 链 路 技术 总 结 在 表 3-1 中 ， 在 本 章 几 乎 不 可 能 对 所 有 的 技术 都 进行 描述 ， 这 里 我 
们 仅 专注 于 少数 主流 链 路 技术 ,我 们 将 详细 介绍 : 1) 点 到 点 协议 ， 或 简称 PPP， 及 其 开源 实施 将 在 
3.2 节 中 介绍 ; 2) 有 线 广播 链 路 协议 、 以 太 网 ， 以 其 Verilog 硬件 实现 将 在 3.3 节 中 介绍 ; 3) 无 线 广 
播 链 路 办 议 、 无 线 局 域 网 ， 将 在 3.4 节 中 介绍 ， 还 包括 对 蓝牙 和 WiMAX 的 总 结 。 我 们 选择 这 些 例子 ， 
是 由 于 其 普及 性 ，PPP 是 流行 的 “最 后 一 公里 ”的 拨号 服务 或 路 由 器 ， 在 点 到 点 链 路 上 承载 名 种 网 络 协 
以 ， 以 太 网 在 有 线 局 域 网 技术 中 占据 主导 地 位 ， 同 时 也 有 望 成 为 无 处 不 在 的 城 域 网 和 广域网 。 与 通常 使 
用 有 线 链 路 连接 到 网 络 的 桌面 计算 机 相 比 ， 用 户 移动 设备 (如 笔记 本 计算 机 和 手机 等 ) 更 青睐 无 线 链 路 


表 3-1 链 路 协议 
个 域 网 /局 域 网 ( PAN/LAN) 城 域 网 /广域网 (MANZWAN) 
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技术 ， 即 无 线 局 域 网 、 蓝 牙 和 WiMAX 既然 多 个 局 域 网 能 够 通过 桥接 互 连 起 来 ， 我 们 将 在 3.5 节 中 介 
绍 这 项 技术 及 其 两 个 关键 组 件 ， 自 学 习 和 生成 树 的 开源 实现 ， 最 后 ， 在 3.6 竹中 说 表 Linux 设备 驱动 各 
序 的 一 般 概念 。 然 后 深入 学 习 以 太 网 驱动 程序 实现 细节 


3.1 一 般 问 题 

位 于 物理 链 路 和 网 络 层 之 间 的 是 链 路 层 ， 它 能 够 提供 对 物理 通信 的 控制 并 提供 对 上 上 面 网 络 层 的 昭 
务 。 该 层 执行 以 下 主要 功能 。 

成 帧 : 将 物理 链 路 上 传输 的 数据 打包 成 以 帧 为 单位 一 个 帧 包含 两 个 主要 部 分 : 在 类 部 中 的 控制 
信息 以 及 在 有 效 载荷 中 的 数据 。 控 制 信息 ， 如 日 的 地 址 、 使 用 的 上 屋 协 议 、 错 误 检 测 码 等 ， 对 于 帧 处 
理 非常 关键 -从 上层 来 的 数据 部 分 与 控制 信息 一 起 封装 到 帧 中 。 由 于 帧 在 物理 层 上 是 以 原始 位 流 的 形 
式 传输 ， 所 以 链 路 层 服 务 应 该 将 帧 转换 为 位 流 来 传输 ， 而 在 接收 时 将 位 流 分 成 帧 。 大 部 分 文献 中 交 答 
使 用 两 个 术语 数据 包 和 帧 ， 但 我 们 将 链 路 层 中 的 数据 单元 称 为 帆 ， 

寻 址 : 当 我 们 给 朋友 写 一 封 信 时 需要 给 出 地 址 ， 当 我 们 给 朋友 打 电 话 时 也 寡 要 一 个 电话 号 但 。 出 
于 同样 原因 ， 在 链 路 层 上 也 需要 寻 址 。 一 个 链 路 层 地 址 ， 经 常 以 一 定 长 度 的 数字 形式 给 山 ， 用 以 指定 
主机 的 身份 。 当 主机 A 想 要 向 主机 B 发 送 一 个 帧 时 ， 它 就 会 包含 自己 的 地 址 和 主机 B 的 地 址 分 别 作为 
帆 的 控制 信息 中 的 源 地 址 和 目的 地 地 址 

差错 控制 和 可 靠 性 : 通过 物理 介质 传输 的 帧 很 容易 出 错 ， 因 此 接收 融 就 必须 通过 某 种 机 制 检 测 山 
这 些 错误 。 当 检测 到 错误 时 ， 接 收费 就 可 以 直接 丢弃 帧 ,或 者 它 也 可 能 会 得 知 出 现 了 错误 并 要求 发 时 
机 重 发 帧 。 对 于 以 太 网 的 数据 链 路 技术， 误 人 码 率 极 低 ， 所 以 为 了 效率 起 见 会 将 重 传 机 制 留 给 高 层 协 议 
(如 TCP) 来 完成 。 对 于 802. 11 的 无 线 连接 技术 ， 发 射 机 会 等 待 接收 机 的 确认 一 段 时 间 ， 如 果 超 时 仍 
没有 收 到 确认 ， 发 射 机 将 重 传 最 后 一 帧 ， 以 便 确 保 能 够 及 时 重 传 

流量 控制 : 发 射 机 可 能 以 超过 接收 机 能 接收 的 速度 发 送 。 在 这 种 情况 下 ,接收 机 将 丢弃 过 多 的 帧 
市 使 发 射 机 重 传 丢弃 的 帧 ， 但 这 样 做 会 浪费 链 路 容量 。 流 量 控制 提供 了 一 种 机 制 ， 使 得 接收 机 能 让 发 
送 机 放 慢 发 送 速 度 ， 以 避免 接收 机 因为 发 射 机 发 送 的 数据 过 多 而 超载 。 

介质 访问 控制 : 当 有 多 台 主 机 要 通过 共享 介质 传输 数据 时 ， 就 必须 有 一 个 仲裁 机 制 来 决定 谁 先 发 
送 。 一 个 民 好 的 仲裁 机 制 必须 能 计 : 主 机 公平 地 访问 共享 介质 ， 同 时 保持 共享 介质 高 度 可 用 以 防止 多 台 
主机 积压 数据 ， 即 数据 排队 等 待 传输: 


3.1.1 成 帧 

由 于 数据 在 物理 层 是 以 原始 位 流 的 形式 传输 ， 所 以 当 接 收 位 流 时 链 路 层 就 必须 能 够 确定 每 一 帧 的 
开始 和 结束 。 另 一 方面 ， 它 也 必须 将 帧 变 成 原始 位 流 以 便于 物理 传输 ， 此 功能 称 为 成 帧 

帧 定 界 

有 多 种 方法 可 以 用 来 定 界 帧 。 特殊 的 位 模式 或 前 哨 (sentinel) 字符 可 以 用 来 标记 帧 边界 ， 例 如 将 
在 稍 后 介绍 的 HDLC 帧 。 某 些 以 太 网 系统 采用 特殊 的 物理 编码 标记 帧 的 边界 ， 而 另 一 些 则 通过 是 和 否 存 
在 信号 来 标识 边界 ”快速 以 太 网 ( 即 100Mbps) 诞生 以 前 都 是 利用 前 者 ， 因 为 它 可 以 检测 物理 链 路 
状态 ， 后 者 则 不 能 检测 ， 央 为 它 不 能 告诉 物理 链 路 是 否 断 开 或 者 是 否 没 有 帧 传输 〈 在 这 两 种 情况 下 ， 
在 链 路 上 部 无 信号 ) 。 它 曾经 用 在 10Mbps 以 太 网 上 ,但 在 新 的 以 太 网 技术 中 已 经 不 再 使 用 . 

一 个 帧 可 以 是 面 问 位 的 ， 也 可 以 是 面 癌 字 节 的 ， 有 具体 要 根据 其 基本 单元 。 面 向 位 的 成 帧 协议 可 以 
指定 一 种 特殊 的 位 模式 ， 比 如 HDLC 中 的 OULI0O， 用 以 标记 帧 的 开始 和 结束 。 而 面向 字 节 的 成 帆 协 
议 可 以 指定 特殊 字符 ， 比 如 SOH ( 头 部 开始 ) 和 STX (文本 开始 ) ， 以 标记 帧 头 部 和 数据 的 开始 。 当 
正常 的 数据 字符 或 位 显示 成 与 特殊 的 模式 相同 时 ， 由 于 可 能 存在 歧义 ， 就 需要 使 用 一 种 称 为 字 节 或 位 
填充 的 技术 解决 歧义 ， 如 图 3-1 所 示 。 在 面向 字 节 的 帧 中 ， 一 种 特殊 的 转 义 字符 ， 又 称 为 数据 链 路 转 
义 (DLE)， 前 面 的 一 个 特殊 字符 指示 下 一 个 字符 是 普通 正常 数据 。 因 为 DLE 本 身 也 是 一 个 特殊 的 字 





以 太 网 使 用 的 术语 “ 流 ” 指 的 是 帧 的 物理 封装 。 严 格 地 说 ， 特 处 的 编码 或 存在 特殊 的 信号 是 为 流 而 不 是 帧 定 界 
的 。 但是， 这 里 我 们 不 介绍 细节 问题 


经 癌 必 85 





符 ， 所 以 黄 个 连续 的 DLE 代表 一 个 普通 正常 的 DIE 字符 。 在 HDLC 中 ， 每 5 个 连续 的 工序 列 后 搬入 一 


个 二 进 制 0， 因 此 模式 01111110 从 不 会 在 普通 正常 数据 中 出 现 。 发 射 器 和 接收 上 带 两 者 都 遵循 相同 的 规 
则 来 解决 歧义 。 
数据 链 
帧 头 部 的 开始 路 转 义 文本 的 开始 文本 的 结束 


头 部 信息 民 数据 部 分 








a) 字 节 夺 充 


填充 位 填充 位 
帧 的 开始 
10101110001110 1I0000011011100110101010101010，， 01011... 
A Ly 
5 个 连续 的 1 5 个 连续 的 1 
b) 位 填充 
图 3-1 


以 太 网 采用 了 不 同 的 成 帧 方式 。 例 如 ，100BASE-X 使 用 特殊 的 编码 来 标识 边界 。 在 第 2 章 所 述 的 
4B/5B 编码 中 ,在 32 (2 ) 种 可 能 的 编码 中 只 有 16 种 来 自 实际 的 数据 ， 而 其 余 的 用 作 控 制 代 码 。 这 些 
控制 代码 可 以 唯一 地 由 接收 器 所 识别 ， 这 样 就 用 于 将 一 个 帧 从 一 个 位 流 中 分 隔 〈 定 界 ) 出 来 。 另 一 种 
以 太 网 系统 10BASE-T， 帧 边界 的 识别 就 是 根据 是 否 存 在 某 个 信号 来 确定 的 。 

帧 格式 

帧 头 部 包含 控制 信息 ， 帧 数据 包含 链 路 层 或 网 络 层 的 数据 。 后 者 还 包含 控制 信息 和 来 自 更 高 层 的 
数据 。 在 帧 头 部 中 的 典型 控制 信息 包括 以 下 字段 ; 

地 址 : 这 通常 既 表 示 源 地 址 也 表示 目的 地 址 。 如 果 帧 头 部 中 的 目的 地 址 与 它 自己 的 地 址 匹配 ， 接 
收费 就 知道 帧 是 发 给 自己 的 。 接 收费 还 可 以 通过 利用 到 达 帧 的 源 地 址 填写 外 出 帧 的 目的 地 址 来 对 到 达 
帧 的 源 做 出 回应 。 

长 度 : 可 以 指示 整个 帧 的 长 度 ， 或 者 数据 的 长 度 。 

类 型 : 网 络 层 协议 的 类 型 在 该 字段 进行 编码 。 链 路 层 协 议 可 以 读 取 代码 ， 以 确定 它 是 哪个 网 络 层 
模块 ， 如 互联 网 协议 (PP) ， 被 调用 来 进一步 处 理 数据 字段 。 

错误 检测 代码 : 这 是 一 个 数学 函数 的 值 ， 以 帧 的 内 容 作 为 输入 参数 。 发 射 机 计算 函数 并 将 结果 值 
区 入 帧 中 。 收 到 帧 后 ， 接 收 机 以 同样 的 方式 计算 函数 ， 比 较 结果 是 否 与 帧 中 租 入 的 值 相 匹 配 。 如 果 不 
匹配 ， 就 意味 着 内 容 在 传输 过 程 中 已 经 改变 了 


3. 1.2， 寻 址 

在 通信 中 ， 地 址 是 一 种 能 将 某 台 主机 与 其 他 主机 区 分 开 来 的 标识 符 。 虽然 名 字 更 容易 记 住 ， 但 
在 低层 协议 中 数值 地 址 是 一 种 更 紧凑 的 表示 。 使 用 名 字 作 为 主机 名 的 概念 在 第 6 章 中 介绍 ( 详 见 域 
名 系统 )。 

全 球 或 本 地 地 址 

地 址 既 可 以 是 全 球 唯一 的 也 可 以 是 本 地 唯一 的 。 全 球 唯一 的 地 址 是 全 世界 独一无二 的 ， 而 本 地 叭 
一 的 地 址 仅 限于 在 本 地 站 点 是 唯一 的 。 一 般 情 况 下 ， 一 个 本 地 唯一 的 地 址 占用 较 少 的 位 ， 但 需要 管理 
员 的 更 多 工作 ， 以 确保 本 地 的 唯一 性 。 由 于 地 址 中 少量 位 数 的 开销 是 微不足道 的 ， 目 前 首选 全 球 唯一 
的 地 址 ， 因 此 管理 员 可 以 随意 将 主机 添加 到 网 络 而 不 需要 担心 有 关 本 地 地 址 的 冲突 问题 。 

地 址 长 度 

地 址 应 该 有 多 长 ?长 的 地 址 需要 发 送 更 多 的 位 ， 也 很 难 记 住 或 引用 ， 但 短 的 地 址 可 能 不 足以 确保 
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全 球 的 唯一 性 。 对 于 一 套 本 地 唯一 的 地 址 ，8 位 或 16 位 应 该 足够 了 ,但 为 了 支持 全 球 唯 一 地 址 就 需要 
所 长 的 地 址 。IEEE 802 中 一 个 非常 流行 的 地 址 格式 是 48 位。 我 们 留 给 读者 一 个 练习 ， 确 定 这 个 长 度 是 
和 足够 全 球 使 用 

IEEE 802 MAC 地 址 

IEEP 802 标准 为 链 路 地 址 格式 提供 了 很 好 的 例子 ， 因 为 它们 广泛 地 被 许多 链 路 协议 所 采用 ,包括 
以 太 网 、 光 纤 分 布 式 数据 接口 (FDDI) 和 无 线 局 域 网 。 尽 管 IEEE 802 规定 既 可 以 使 用 2 字 节 也 可 以 使 
川 6 学 节 的 地 址 ,但 大 多 数 实现 采用 6 字 节 (48 位 ) 的 地 址 格式 。 为 了 确保 其 在 全 球 的 唯一 性 ， 地 址 
分 成 两 部 分 : 组 织 唯一 标识 符 ”(0UT) 和 组 织 自己 分 配 的 部 分 ， 每 部 分 各 占 3 个 字 节 。IEEE 管理 前 
-部 分 ， 因 此 公司 组 织 可 以 联系 下 EE 由 请 一 个 OUI， 接 下 来 再 负责 保持 自己 OUI 的 组 织 分 配 部 分 的 唯 
-性 ， 从 理论 虐 讲 ， 按照 EE 802 规范 ， 有 2*” (大约 10”) 个 地 址 可 以 分 配 ， 而 这 个 数量 足以 确保 全 
球 唯一 性 。 一 个 EEE 802 地 址 常常 用 十 六 进 制 表示 ， 每 两 个 数字 利用 -或 冒号 分 升 ， 例如 00-324F-CC- 
30-58 图 3-2 说 明了 TEEE 802 地 址 的 格式 


| 


第 -- 字 区 第 二 字 币 第 三 字 节 第 四 字 节 第 五 学 和 第 六 学 节 
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组 织 唯 一 标识 符 (OUID) ~- 组 织 分 配 的 部 分 地 址 一 一 一 一 ”| 


0; 单 播 地 址 
1: 组 播 地 址 
图 3-2 IEEE 802 地 址 的 格式 

在 传输 顺序 中 的 第 一 位 保留 用 于 指示 地 址 是 单 播 还 是 组 播 呈 。 单 播 地 址 是 一 台 主 机 ， 而 组 播 地 址 
是 一 组 主机 地 址 。 组 播 的 一 个 特殊 例子 就 是 广播 ， 其 地 址 中 的 所 有 位 都 是 1。 广播 型 帧 是 发 向 所 有 主 
机 ， 只 要 它 在 链 路 层 上 可 达 。 请 注意 ， 地 址 中 每 个 字 节 的 位 传输 顺序 与 它们 在 内 存 中 存储 的 顺序 不 同 
在 以 太 网 中 ,传输 顺序 是 每 个 字 节 中 最 低 有 效 位 (LSB) 先 发 送 ， 称 为 低 字 节 序 (little-endian )。， 例 
如 ， 给 定 一 个 字 节 bybe…b,。， 以 太 网 首先 传输 b, ， 然 后 传输 b, 、b 等 。 在 其 他 协议 中 ， 如 FDDI 和 令 牌 
环 中 ,传输 顺序 是 每 个 字 节 中 最 高 位 ( MSB) 先 发 送 ， 称 为 高 字 节 序 (big-endian)。 


3. 1.3 差错 控制 和 可 靠 性 

帧 在 传输 过 程 中 容易 出 现 错误 ， 假设 链 路 层 的 设备 能 够 及 时 发 现 这 些 错误 。 如 3. 1.1 节 中 所 述 ， 
错误 检测 公 是 帧 内 容 的 函数 ， 由 发 和 时机 计算 出 来 后 填充 到 帧 的 一 个 字段 中 。 接 收 颖 将 使 用 相同 的 算法 
对 所 接收 到 的 帧 内 容重 新 计算 错误 检测 代码 ， 并 对 比 这 两 个 代码 值 是 否 匹 配 。 如 果 不 匹配 ， 在 传输 过 
程 中 必然 发 生 了 错误 。 下 面 我 们 介绍 常用 的 两 种 错误 检测 函数 校 验 和 与 循环 完 余 校 验 (CRC). 

错误 检测 码 

校 验 和 计算 就 是 将 帧 内 容 分 成 m 位 的 多 个 块 (分组) 并 取 这 些 块 的 m 位 的 和 。 计 算 本 身 很 简单 ， 
可 以 很 容易 地 在 软件 中 实现 。 在 开源 实现 3. 1 中 ， 我 们 将 介绍 实现 校 验 和 计算 的 代码 。 

男 一 个 强大 的 技术 是 循环 元 余 校 验 ， 这 比 校 验 和 复杂 ， 但 容易 在 硬件 中 实现 。 假设 帧 内 容 有 m 
位 发 时 机 可 以 生成 一 个 位 序列 作为 帧 检查 序列 (FCS)， 以 便 m+ 上 位 的 帧 可 以 被 预定 的 位 模式 
( 义 称 为 生成 多 项 式 ) 除 。 接 收 机 以 同样 的 方式 除 以 接收 到 的 帧 ， 看 余数 是 否 为 零 。 如 果 余 数 为 非 0 
那么 在 传输 过 程 中 就 有 错误 ， 下 面 的 例子 演示 了 一 个 生成 FCS 的 简单 CRC 程序 。 

帧 内 容 玉 =11010001110 (11 位 ) 





传输 的 第 一 位 { 





”有关 OU1 如 何 分 配 信 息 ， 参 见 hitp: /A/standards. ieee. org/ regauth/ oui/oui. txt 
第 二 位 可 以 用 来 表示 地 址 是 耕 是 全 球 唯一 地 址 还 是 本 地 唯一 地 址 。 但是， 这 种 用 法 很 罕见 ， 所 以 这 里 我 们 忽略 
不 讲 
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生成 多 项 式 B=101011 (6 位 ) 
FCS (5 和 位) 
步骤 如 下 进行 : 
第 1 步 将 下 向 左 移 5 位 (利用 二 进 制 的 模 2 运算 进行 2 乘 下 的 运算 ， 这 相当 于 在 了 后 面 添加 5 
个 0) 并 添加 5 个 0， 得 到 1101000111000000 
第 2 步 将 第 1 步 得 到 的 结果 模式 除 以 B- 过 程 如 下 : (计算 全 部 是 模 2 算术 运算 ) 


11000001111 


[a ) TIOTO00111000000 


10101] 
1 EG 
101011 


101011 
101011 
T10000 
101011 
110110 
101011 
111010 
101011 
10001 -一 一 余数 


第 3 步 ” 将 在 此 计算 中 得 到 的 余数 添加 到 原来 帧 的 内 容 中 ， 得 到 1101000111010001。 然 后 传送 帧 
接收 机 将 接收 到 的 帧 内 容 除 以 相同 的 生成 多 项 式 ， 以 验证 帧 。 在 接收 机 瑟 的 验证 留 给 读者 做 练习 

二 面 的 描述 是 经 过 简化 的 ， 因 为 实际 CRC 计算 之 后 的 推理 在 数学 上 上 很 复杂 。 已 经 得 到 证 明 ，CRC 
可 以 检测 到 很 多 类 型 的 错误 ， 包 括 : 

1) 单位 错误 

2) 双 位 错误 。 

3) 任何 长 度 小 于 FCS 的 突 发 错误 ，。 

CRC 计算 可 以 很 容易 地 在 硬件 中 利用 异 或 门 和 移 位 寄存 器 实现 。 假 设 我 们 以 形式 aja, ya, ,aa 
来 表示 生成 多 项 式 ， 这 里 a, 和 a 必须 为 1。 我们 绘制 出 常用 来 实现 CRC 计算 的 电路 体系 结构 ， 如 图 3-3 
所 示 。 帧 的 内 容 逐 位 移 人 到 该 电路 中 ,在 移 位 寄存 器 中 的 最 后 位 模式 是 FCS， 即 CC 3y*…CiCos Ci 
C, CC 的 初始 值 并 不 重要 ， 因 为 一 旦 开始 计算 就 将 它们 移出 。 对 于 非常 高 速 的 链 路 ， 则 采用 并 行 
CRC 计算 电路 ， 以 满足 高 速 的 需求 。 








图 3-3 CRC 电路 图 


数据 可 靠 性 

但 当 接收 到 一 个 错误 的 帧 时 接收 机 将 如 何 回应 ?接收 机 可 以 用 以 下 方式 响应 : 

1) 默默 地 丢弃 不 正确 的 传人 帧 。 

2) 当 传 入 帧 是 正确 的 时 ， 回 复 对 正确 的 确认 。 

3) 当 传 入 帧 是 不 正确 的 时 ， 回 复 对 错误 的 确认 . 

发 射 机 会 重新 发 送 接收 错误 的 帧 ， 或 者 只 是 忽略 错误 . 在 后 一 种 情况 下 ， 高 层 协议 ， 如 TCP， 将 
负责 重 传 

男 一 项 需要 做 出 的 决策 是 ， 是 否 在 链 路 层 执行 数据 确认 。 因 为 以 太 网 的 位 错误 率 相当 低 ， 所 以 它 
不 使 用 确认 机 制 ， 如 果 要 求 对 每 个 传输 帧 部 进行 确认 ， 就 有 点 矫 枉 过 正 。 因 此 ， 将 确认 机 制 留 给 高 层 
协议 (如 TCP) 处 理 。 对 于 无 线 链 路 ， 误 人 码 率 比 以 太 网 高 得 多 ( 即 不 可 靠 ;， 因 此 最 好 确认 每 个 传输 
的 帧 ,但 是 ,使 用 确认 机 制 ， 却 要 以 降低 在 吐 量 为 代价 ， 因 为 发 送 者 在 下 次 发 送 前 必须 等 竺 确认， 在 
链 路 层 设 计 中 ， 仍 需要 在 高 存 叶 量 和 及 时 检测 错误 之 间 做 出 权衡 
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行动 原则 : CRC 还 是 校 验 和 

在 更 高 层 协议 (如 TCP、UDP 和 IP) 中 使 用 校 验 和 ,而 CRC 只 用 于 以 太 网 和 无 线 局 域 网 中 ， 这 种 
区 别 的 背后 有 两 个 原因 ,首先 ，CRC 很 容易 在 硬件 中 实现 ， 而 不 是 在 软件 中 。 因 为 更 高 层 协 议 几 乎 总 
是 在 软件 中 实现 ， 为 它们 使 用 校 验 和 也 是 一 个 自然 选择 。 其 次 ，CRC 在 数学 上 已 经 得 到 证 明 ， 对 于 多 
种 物理 传输 错误 是 健壮 的 。 由 于 CRC 已 经 过 滤 掉 了 大 部 分 传输 错误 ， 所 以 使 用 校 验 和 复核 不 寻常 的 错 
误 (例如 ， 发生 在 网 络 设备 内 的 错误 ) 应 该 已 经 足够 了 


行动 原则 : 纠 错 码 

像 CRC 和 校 验 和 的 错误 检测 码 只 能 检测 传输 错误 一旦 发 现 错误 ,接收 器 无 法 做 任何 事情 ， 只 能 
放弃 帧 ， 另 一 种 替代 方法 就 是 使 用 纠 错 码 的 前 向 纠 错 (FEC)。 通过 FEC， 发 送 方 在 消息 上 添加 更 多 的 
宛 余 位 。 纠 错 与 错误 检测 之 间 的 主要 区 别 在 于 ， 前 者 可 能 推断 出 出 现 错误 的 位 并 予以 纠正 ， 帧 中 错误 
位 被 “纠正 ”后 ， 就 能 够 被 接收 而 不 需要 重 传 ， 这 里 我 们 不 会 深入 研究 详细 的 数学 知识 ， 而 是 指出 一 
般 原 则 : 要 纠正 更 多 的 位 就 需要 使 用 更 多 的 完 余 位 。 因此 便 会 出 现 一 个 问题 : 为 了 纠 错 ， 添 加 更 多 的 
宛 余 位 值得 吗 ? 

答案 取决 于 误 码 率 、 可 能 的 传输 方向 、 数 据 的 重要 性 等 。 在 常见 的 数据 链 路 协议 (如 以 太 网 ) 
中 ， 误 码 率 相当 低 。 在 以 太 网 中 ， 每 传输 10" 位 数据 才 会 出 现 1 位 错误 。 在 这 种 情况 下 ,使 用 纠 错 码 
显然 是 矫 枉 过 正 ， 即 使 在 无 线 局 域 网 中 ， 错 误 检测 也 是 足够 的 。 当 数据 在 互联 网 上 传输 时 ， 大 多 数 错 
误 是 由 于 互联 网 拥塞 而 丢 数 据 包 ， 因 此 这 里 使 用 纠 错 码 仍然 帮助 不 大 

纠 错 码 的 常见 应 用 是 在 太空 通信 、 数 据 存 储 和 卫星 广播 ， 在 太空 通信 中 ， 重 传 的 费用 很 高 ， 所 以 
就 值得 使 用 纠 错 码 。 由 于 卫星 广播 是 单 向 的 ， 没 有 确认 或 重 传 ; 所 以 就 需要 纠 错 ， 在 数据 存储 中 ， 如 
果 出 现 错误 ， 错 误 检测 就 帮助 不 大 ， 因 为 数据 存储 是 唯一 的 数据 源 并 且 错 误 无 论 如 何 都 不 能 恢复 .在 
这 种 情况 下 ， 纠 错 码 至 少 可 以 在 一 定 程度 上 恢复 位 错误 。 在 卫星 广播 中 ， 因 为 接收 机 没有 办 法 通知 错 
误 码 的 源 ， 所 以 就 首选 纠 错 


开源 实现 3.1: 校 验 和 

概述 

校 验 和 计算 是 一 种 用 于 互联 网 协议 (如 人 于、UDP 和 TCP) 中 的 常见 错误 检测 码 。 其 效率 对 于 良好 
的 路 由 性 能 至 关 重 要 ， 因 为 每 个 数据 包 需 要 在 其 网 络 层 头 部 和 传输 层 头 部 中 计算 校 验 和 。 例如 ， 在 
TCP 头 部 中 的 校 验 和 字段 既 包 括 TCP 分 段 关 部 和 有 效 载荷 的 内 容 ， 也 包括 伪 头 部 的 额外 信息 ， 如 源 和 
目的 地 由 地址。 如果 在 TCP 协议 栈 中 的 校 验 和 计算 得 不 到 很 好 的 实施 ， 那 么 在 数据 包 转 发 过 程 中 它 将 
消耗 相当 数量 的 CPU 周期 。 

框图 

图 3-4 是 一 个 说 明 如 何 实施 校 验 和 的 框图 。 在 开始 时 ,变量 sum 和 checksum 初始 化 为 0， 并 保 
持 每 批 16 位 字 的 输入 字 节 的 窗 盖 范围 更 新 一 个 数据 包 。 经 过 最 后 的 批量 计算 后 ，sum 的 值 交叉 折 滞 
( 见 下 面 的 讨论 ) 以 便 导 出 checksum 的 值 。 下 面 详 述 校 验 和 计算 的 Linux 实现 。 


总 和 





校 验 和 





1 的 补 码 相 加 






16 位 字 
校 验 和 =0 (最 初 ) 


图 3-4 校 验 和 计算 框图 


数据 结构 

校 验 和 计算 的 数据 结构 微不足道 。 它 包含 一 个 累积 了 整个 字段 和 负载 的 16 位 字 sum 变量 ， 以 及 一 
个 用 来 计算 还 剩 下 多 少 16 位 字 的 count 变量 。 注 意 sum 变量 是 一 个 32 位 字 以 便 横 获 累积 的 溢 岂 。 计 算 
过 最 后 的 16 位 字 后 ，sum 变量 就 折 澡 成 一 个 16 位 字 ，checksum 的 值 是 折 枉 值 的 上 的 补 码 。 


绝路 乓 89 





算法 实现 

对 于 将 要 包括 在 校 验 和 计算 中 的 这 些 字 节 ， 相 邻 的 字 节 首先 配对 形成 16 位 字 ， 然 后 计算 出 这 些 配 
对 的 1 的 补 码 和 -如 果 留 下 一 个 字 节 没有 配对 ， 就 将 它 直 接 加 到 校 验 和 中 。 最 后 ， 结 果 的 工 的 补 码 填 
充 到 校 验 和 字段 。 接 收 机 遵循 相同 的 步骤 针对 相同 字 节 计算 校 验 和 字段 。 如果 结 果 有 是 全 1， 那么 检查 
成 功 ， 为 了 提高 效率 Linux 的 校 验 和 实现 通常 采用 汇编 语言 编写 ， 我 们 这 里 给 出 在 RFC 1071 中 的 C 代 
码 ， 以 便 有 更 好 的 可 读 性 第 4 章 中 的 开源 实现 4.3 中 解释 了 在 Linux 内 核 中 的 汇编 语言 版 本 的 IP 校 
验 和 计算 

/* Compute Internet Checksum for “count” bytes 

太 beginning at location “addr"“. 

i long sum = 0; 

while( count > 1 ) { 


sum += * (unsigned short) addr++; 
count -= 2; 


} 


/* Add left-over byte, if any */ 
if( count » 0 ) 

sum += * (unsigned char *) addr; 
/* Fold 32-bit sum to 16 bits */ 
while (sum>>16) 

sum = (sum & Oxffff) + (sum >> 16); 
checksum = ~Sum; 


练习 

1， 当 JP 数据 分 组 通过 一 台 路 由 器 时 ，IP 数据 分 组 中 的 TTL 字段 会 减 1， 那 么 经 过 减法 后 的 校 验 值 也 必 
须 相 应 更 改 。 请 寻找 一 种 有 效 的 算法 重新 计算 新 的 校 验 和 的 值 (提示 : 请 参阅 RFC 1071 和 1141 文档 ) 

2. 解释 为 什么 IP 校 验 和 中 没有 将 有 效 载荷 包括 在 其 计算 中 


开源 实现 3.2: 硬件 CRC -32 

概述 

CRC -32 是 常用 于 很 多 MAC 协议 (包括 以 太 网 和 802. 11 无 线 局 域 网 ) 中 的 一 种 错误 检测 码 。 为 

了 高 速 计算 ，CRC -32 通常 是 作为 在 网 络 接口 卡 中 芯片 功能 的 一 部 分 在 硬件 中 实现 的 .作为 分 批 的 4 

位 数据 输入 或 输出 到 物理 链 路 上 ， 它 们 是 按照 顺序 处 理 的 ， 以 获得 32 位 CRC 值 . 计算 结果 既 可 以 用 
来 验证 帧 的 正确 性 也 可 以 添加 到 要 发 送 的 帧 上 。 

框图 

图 3-5 是 表示 CRC 如 何在 硬件 中 实现 的 框图 。 最初 是 将 一 个 32 个 1 分 配给 crc 变量 。 当 每 批 4 位 
被 送 入 时 ， 这 些 位 会 将 当前 的 crc 变量 更 新 为 crc _next， 即 为 crc 赋值 用 于 下 一 批 4 位 数据 。 更 新 
处 理 涉 及 带 有 许多 参数 的 计算 ， 所 以 我 们 这 里 省 略 了 具体 细节 。 当 所 有 数据 都 处 理 后 ， 存 储 在 crc 变 
量 中 的 值 就 是 最 后 的 结果 。 


crc_next[310] 





| datal 3:0] 
cre=32nTFFFF( 最 初 的 ) 
图 3-5 CRC -32 计算 的 框图 

数据 结构 

CRC -32 计算 的 数据 结构 主要 是 读 取 每 一 批 4 位 数据 后 保持 最 新 状态 的 32 位 crc 变量 。CRC -32 
计算 的 最 终结 果 是 读 取 完 最 后 一 组 数据 之 后 的 状态 ， 

算法 实现 

CRC -32 的 开源 实现 可 以 在 OpenCores Web 网 站 (http: /www. opencores. org) 中 的 以 太 网 MAC 
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项 目 中 找到 。 参 见 项 目 CVS 库 中 的 Verilog 实现 eth crc. vs 在 这 个 实现 中 ,每 批 4 位 ， 数 据 依 次 进 
入 CRC 模块 中 。 最 初 ， 所 有 CRC 值 初始 化 为 1。 当 前 CRC 值 的 每 一 位 是 通过 将 从 输入 的 4 位 中 选择 的 
位 与 上 一 轮 CRC 值 进行 异 或 运算 获得 的 ， 由 于 计算 的 复杂 性 ,我 们 建议 读者 参 者 eth crc. V， 学 习 
每 一 个 位 计算 中 的 相关 细节 。 数 据 位 计算 完成 后 ， 也 同时 导出 了 CRC 值 ， 接收 机 遵循 同样 的 过 程 计算 
CRC 值 并 检查 到 达 帧 的 正确 性 。 

练习 

1. eth src. Vv 中 的 算法 能 够 很 容 易 在 软件 中 实现 吗 ? 请 解释 你 的 答案 

2. 为 什么 我 们 在 链 路 层 中 使 用 CRC -32 而 不 是 校 验 和 计算 ? 


3. 1.4 流量 控制 
流量 控制 用 以 解决 快速 发 射 机 和 慢 速 接收 机 的 问题 。 它 提供 了 一 种 方法 ， 人 允许 一 台 被 数据 分 组 流 
没 的 接收 机 告诉 发 送 机 放 慢 传输 速率 。 最 简单 的 一 种 流量 控制 方法 是 停止 一 等 待 ， 其 中 发 射 机 发 送 一 
个 帧 ， 等 待 接收 机 的 确认 ， 然 后 才 会 再 传送 下 一 个 帧 。 然而， 这 种 方法 会 使 链 路 的 利用 率 很 低 。 接 下 
来 将 介绍 更 好 的 实现 方法 
滑动 窗口 协议 
更 有 效 的 流量 控制 可 以 通过 滑动 窗口 协议 来 实现 ， 其 中 发 射 机 在 没有 得 到 确认 消息 的 情况 下 能 够 
传送 一 定数 量 的 帧 。 当 有 确认 信息 从 接收 机 传 回 后 ,发射 机 就 向 前 移动 窗口 以 便 传 输 更 多 的 帧 。 为 了 
能 够 跟踪 返回 确认 所 对 应 的 发 送出 去 的 帧 ， 每 一 帧 都 附加 上 了 一 个 序列 号 。 为 了 防止 一 个 号 同时 被 多 
个 帧 使 用 ， 序 列 号 范围 就 必须 足够 大 ; 和 否则， 我 们 无 法 知道 这 个 序列 号 代表 的 是 老 帧 还 是 一 个 新 帧 
图 3-6 说 明了 滑动 窗口 的 例子 。 假 设 发 射 机 的 窗口 大 小 为 9， 就 是 说 发 射 机 在 无 确认 的 情况 下 最 多 
可 传输 9 个 帧 ， 从 1 号 帆 一 直到 9 号 帧 。 假 设 发 射 机 已 经 传输 了 4 个 帧 〈 如 图 3-6a 所 示 ) 并 且 收 到 前 
:个 帧 已 成 功 收 到 的 确认 。 窗 口 向 前 滑动 3 个 帧 表示 目前 8 个 帧 (5 号 帧 到 12 号 帧 ) 在 无 确认 的 情况 
下 可 传输 ( 如 图 3-6b 所 示 )。 窗 口 最 初 包括 1 号 帧 到 9 号 帧 ， 现 在 包括 4 号 帧 到 12 号 帧 ， 感 党 就 好 像 
窗口 沿 着 帧 的 顺序 方向 滑动 。 滑动 窗口 流量 控制 在 TCP (传输 控制 协议 ) 中 是 一 项 非常 重要 的 技术 ， 
这 是 一 种 优秀 而 且 非 常 实用 的 采用 滑动 窗口 的 例子 。 我 们 将 在 第 4 章 介绍 滑动 窗口 在 TCP 中 的 应 用 


窗口 大 小 〈9 个 帧 ) 











已 发 送 的 帧 。 “” 竺 发送 的 帆 
a) 
已 确认 的 帧 窗口 大 小 (9 个 帧 ) 
一 一 — 














已 发 送 的 帧 待 发 送 的 帧 
b) 


图 3-6 通过 滑动 窗口 传送 帧 


其 他 方法 

实现 流量 控制 还 有 很 多 方法 。 比 如 ， ee dt PAUSE (暂停 ) en 
然而 ,为 了 理解 这 些 方 法 就 需要 首先 知道 这 些 协 议 是 如 何 工 作 的 。 我 们 将 这 些 流 量 控 制 技 术 留 
3.3.2 节 中 讲解 。 


3. 1.5 介质 访问 控制 
当 多 个 节点 共享 同一 个 物理 介质 时 就 需要 用 到 介质 访问 控制 ( MAC) 。 为 了 能 够 公平 、 高 效 地 共 
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至 ， 它 使 用 一 种 每 一 个 节点 都 应 该 遵守 的 仲裁 机 制 。 我 们 把 该 技术 分 为 两 类 ， 

基于 争 用 的 方法 

通过 这 种 方法 ， 多 个 节点 竞争 共享 介质 的 使 用 ，ALOHA 就 是 这 种 方法 中 的 一 个 经 由 例子 ， 其 中 市 
点 会 随意 传输 数据 。 如 果 了 两 个 或 更 多 个 节点 同时 传输 数据 ， 那 么 就 会 发 生 冲 突 ， 它 们 传输 的 帧 将 会 出 
现 错误 ， 从 而 降低 存 吐 量 性 能 .改进 的 方法 是 将 时 隙 ALOHA ， 其 中 一 个 节点 仪 允许 在 它 自己 的 时 际 内 
开始 时 传输 ， 更 进一步 的 改进 方法 包括 载波 侦 听 和 冲突 检测 ， 载波 货 听 就 是 节点 侦 听 是 否 有 信和 号 正在 
共享 介质 上 (在 一 种 称 为 载波 的 信号 上 ) 传输 。 发射 机 将 一 直 耐 心 等 待 直到 共享 介质 空闲 为 止 。 通过 
-日 检测 到 冲突 就 停止 传输 的 方法 ， 冲 突 检 测 能 够 缩短 减少 错误 的 位 流 

无 争 用 方法 

当 不 能 及 时 检测 到 冲突 时 ， 以 争 用 为 基础 的 方法 就 会 变 得 无 效 。 在 传输 终止 前 ， 作 为 一 个 完整 的 
帧 可 能 已 经 出 现 错误 。 两 种 常用 的 无 争 用 方法 分 别 为 时 间 片 轮转 法 和 基于 预 留 的 方法 。 在 前 一 种 方法 
中 ， 令 牌 将 在 节点 中 一 个 接 一 个 地 传递 ， 从 而 公平 地 共享 介质 ， 并 且 只 有 获得 令 牌 的 节点 才 有 权 传 输 
日 己 的 帧 。 经 典 例 子 包 括 : 令 牌 环 和 光纤 分 布 式 数据 接口 (FDDI) ， 尽 管 它们 拥有 不 同 的 结构 ， 但 是 
机 制 相 似 ， 基 于 预 留 的 方法 是 在 真正 传输 帧 之 前 尽量 在 共享 介质 上 预 留 一 个 信道 。 一 个 众所周知 的 例 
于 是 正 EE 802. 11 无 线 局 域 网 中 的 RTSACTS (请 求 发 送 / 人 允许 发 送 ) 机 制 。 我 们 将 在 3.4 节 中 详细 介绍 


它 。 由 于 这 个 过 程 本 身 会 带 来 额外 的 开销 ， 所 以 使 用 预 留 方法 时 就 要 进行 折 中 。 如 果 一 个 帧 的 丢失 无 
关 紧 要 ， 如 一 个 很 短 的 帧 ， 那 么 在 这 种 情况 下 基于 争 用 的 方法 更 好 一 些 。 如 果 在 一 条 点 对 点 链 路 上 仅 
有 了 两 个 节点 ， 而 且 是 全 双 革 链 路 时 ， 那 么 访问 控制 可 能 就 是 不 必要 的 。 我 们 将 在 3.2 节 中 进一步 讨论 
全 双 工 的 运行 方式 。 

3.1.6 桥接 


将 单独 的 局 域 网 连接 成 互 连 的 网 络 就 可 以 扩大 网 络 的 通信 和 范围。 在 链 路 层 上 [的 连接 设备 称 为 MAC 
网 桥 ， 简 称 网 桥 ， 它 能 将 局 域 网 互联 起 来 ,使 它们 的 节点 就 像 在 同一 个 局 域 网 上 一 样 。 网 桥 知 道 是 否 
应 该 转发 一 个 到 达 的 数据 帧 以 及 转发 到 哪个 接口 |.。 为 了 支持 即 插 即 用 和 便于 管理 ， 网 桥 能 够 自动 学 
习 接 口 属于 哪 一 个 目的 地 主机 . | 

当 桥接 网 络 的 拓扑 变 得 越 来 越 大 时 ， 网 络 管理 员 会 不 经 意 地 在 拓扑 上 形成 一 个 环 路 。 正 EF 
802. 1D ， 或 者 IEEE MAC 网 桥 标准 ， 制 定 了 生成 树 协 议 (STP) 用 来 去 除 桥接 网 络 中 的 环 路 。 还 有 一 
些 其 他 的 重要 内 容 ， 比 如 逻辑 分 割 局 域 网 ， 将 多 条 链 路 结合 起 来 成 为 主干 网 络 用 于 更 高 的 传输 速率 ， 
并 指定 帧 的 优先 级 。 我 们 将 在 3. 5 节 中 详细 介绍 上 述 这 些 内 容 


3.1.7 链 路 层 的 数据 包 流 

数据 链 路 层 位 于 物理 层 和 网 络 层 之 间 。 在 数据 包 传 输 过 程 中 ， 它 从 网 络 层 接收 一 个 分 组 然后 再 封 
装 相应 的 链 路 信息 〈 如 帧 的 头 部 加 上 MAC 地 址 )， 在 帧 尾部 加 上 帧 校 验 和 ， 然 后 再 将 帧 传输 到 物理 
层 。 类 似 地 ， 从 物理 层 接收 到 一 个 数据 包 后 ， 链 路 层 会 提取 头 部 信息 ， 验 证 帧 校 验 序列 ， 然 后 根据 头 部 
中 的 协议 信息 将 有 效 载荷 传递 给 网 络 层 。 但 是 在 这 些 层 之 间 ， 实际 的 数据 包 流 会 是 什么 呢 ? 继续 1.5 节 
中 有 关 数 据 包 的 生命 历程 的 学 习 ， 我 们 将 继续 阐述 数据 包 流 在 开源 实现 3.3 节 中 对 帧 的 接收 和 发 送 





开源 实现 3.3: 调用 图 中 的 链 路 层 数 据 包 流 

概述 

链 路 层 的 数据 包 流 沿 着 两 条 路 径 传输 。 在 接收 路 径 中 ， 从 物理 层 接收 到 一 个 帧 ， 然 后 传递 给 网 络 
层 。 在 发 送 路 径 中 ， 从 网 络 层 接收 到 一 个 帧 ， 然 后 传递 给 物理 层 。 在 物理 层 和 链 路 层 之 间 的 接口 部 分 
位 于 硬件 中 。 例如， 以 太 接 口 ， 将 在 开源 实现 3.5 中 介绍 。 我 们 将 介绍 设备 驱动 中 的 代码 重点 放 在 帧 
发 送 和 帧 接收 中 的 软件 部 分 。 

框图 

图 3-7 中 介绍 了 链 路 层 之 上 和 之 下 的 接口 以 及 整个 数据 包 流 。“ 算法 实现 ”部 分 将 详细 地 解释 数据 
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包 流 如 何 通过 图 3-7 中 的 函数 。 对 于 介质 访问 控制 和 物理 层 之 间 的 接口 ， 请 参考 开源 实现 3.5， 





中 网 络 层 
iP_rev IPVO_rev arp_rev ip_finish_output2 
Device driver 4 

netif_receive_skb net Xaction 
ddise_run 链 路 层 
pz 

poll(process_backlog) 
dqueue_skb 
net_rx_action q->dequeue 


介质 访问 控制 (MAC) 
PHY 物理 层 
图 3-7 链 路 层 数 据 包 流 





数据 结构 

最 关键 的 数据 结构 是 sSK buff， 它 表示 在 Linux 内 核 中 的 一 个 数据 包 。sk buff 中 的 某 些 字段 用 
于 记录 目的 ， 其 他 部 分 则 用 于 存储 数据 包 内 容 ， 包 括 头 部 和 有 效 载荷 ， 例 如 ， 在 数据 结构 中 的 以 下 字 
段 包括 头 部 和 有 效 载 荷 信息 。 


sk buff data 七 transport header; 
sk buff data 七 network header; 
sk buff data t mac header; 
unsigned char *head, 

*data; 
算法 实现 
接收 路 经 中 的 数据 包 流 


当 网 络 接口 卡 接收 到 一 个 帧 时 ， 就 产生 一 个 中 断 向 CPU 发 出 信号 请 求 处 理 该 帧 。 中 断 处 理 程序 
将 分 用 daev_alloc skb() 函数 分 配 sk buff 数据 结 人 构 中 ， 然 后 处 理 程序 将 
初始 化 sk_buff 中 的 某 些 字段 ， 尤 其 是 用 于 上 层 协 议 的 字段 ， 并 通知 内 核 有 帧 的 到 达 以 便 做 进一步 
处 理 

两 种 机 制 可 以 实现 通知 处 理 : 1) 老 的 函数 netif rx() 和 2) 自 内 核 版 本 2.6 以 后 处 理 进 入 的 帧 
的 新 API net rx _action () 。 前 者 只 是 一 个 中 断 驱动 ， 后 者 为 了 高 效 使 用 中 断 和 轮 询 的 混合 方式 。 例 
如 ， 当 内 核 正 在 处 理 一 个 帧 时 另 一 个 新 帧 到 达 ， 内 核 可 以 继续 处 理 前 面 的 帧 和 入 队列 中 的 其 他 帧 直到 
队列 为 空 为 止 ， 而 不 会 被 新 到 达 的 帧 所 中 断 。 根 据 一 些 基准 测试 结果 ， 在 高 流量 时 使 用 新 的 API，CPU 
负载 会 降低 ， 因 此 这 里 我 们 更 强调 使 用 新 的 API。 

中 断 处 理 例 程 可 包含 一 个 或 多 个 帧 ， 有 具体 根据 驱动 程序 的 设计 而 定 。 当 内 核 被 一 个 新 到 达 的 帧 中 
断 时 ， 它 调用 net_rx_action () 函数 从 软件 中 断 NET RX SOFTIRQ 中 轮 询 接口 列表 。 软 件 中 断 是 一 
种 后 半 部 ( bottomhalf) 处 理 程序 ， 它 可 以 在 后 台 运行 以 避免 为 了 处 理 到 达 的 帧 而 占用 太 多 CPU 时 间 。 
轮 询 以 循环 方式 执行 ， 带 有 一 个 能 够 被 处 理 的 最 大 帧 数 。net _rx action () 函数 在 每 一 个 设备 上 调用 
Poll () 虚拟 函数 (一 种 在 设备 上 轮流 调用 特定 轮 询 函 数 的 (通用 ) 类 函数 ) 以 便 从 入 队列 中 出 队 ， 
如 果 一 个 接口 不 能 清除 它 的 入 队列 ， 因 为 允许 处 理 的 帧 数量 或 者 net rx _action () 的 可 用 执行 时 间 达 
到 极限 ， 那 么 它 将 等 待 直到 下 一 次 轮 询 ， 在 这 个 例子 中 ， 上 默认 处 理 程序 process backlog () 用 于 
poll () 函数 

Po11 () 上 庶 函 数 依次 调用 netif receive skb () 来 处 理 帧 。 当 net _rx action () 被 激活 时 ， 第 
三 层 (13) 协议 类 型 已 经 在 sk buff 的 协议 字段 中 了 ， 并 且 已 由 中 断 处 理 程序 设置 了 。 因 此 netif 








一 


receive skb () 知 道 第 三 层 (13) 协议 类 型 ， 并 通 过 调用 下 列子 数 将 帧 复制 到 与 第 三 层 (3 ) 协议 
处 理 程序 相关 的 协议 字段 : 

ret=pt Prev- >func (skb, skb - >dev, Pt Prev，orig_ dev); 

这 里 函数 指针 func 指向 公用 的 第 三 层 (13) 协议 处 理 程序 ,例如 ip rcv() 、ip ipv6 rcv() 和 
arp rcv() ， 分 别处 理 TPv4、IPv6 和 ARP (将 在 第 4 章 中 介绍 )。 到 目前 为 止 ， 帧 接收 处 理 已 经 完成 ， 
第 三 层 (13) 协议 处 理 程序 接管 帧 并 决定 下 一 步 做 什么 

发 送 路 径 上 的 数据 包 流 

在 发 送 路 径 和 接收 路 径 上 的 数据 包 流 是 对 称 的 .函数 net tx action() 与 net rx action() 相 
对 应 ， 当 某 个 设备 准备 从 软件 中 断 NET_TX SOETIRQ 发 送 一 个 帧 时 将 调用 该 函数 。 与 来 自 NET RX_ 
SOFTIRO 的 net rx action () 一 样 ， 后 半 部 处 理 程序 net tx action() 可 以 管理 耗 时 的 任务 ， 如 发 
送 完 一 个 帧 后 就 释放 缓冲 区 空间 。net tx _action () 执行 两 项 任务 : 1) 确保 等 待 发送 的 帧 确实 被 
dev_queue xmit () 函数 发 送出 去 ; 2) 在 发 送 结束 后 收回 sk buff 结构 的 分 配 。 外 出 队列 中 的 帧 将 





遵守 一 定 的 排队 规则 按照 预定 的 时 间 发 送 。 qqisc run () 函数 选择 下 一 个 要 发 送 的 帧 ， 并 调用 de- 
queue skb () 从 队列 四 中 释放 一 个 数据 包 ， 然 后 这 个 函数 在 队列 q 上 调用 相关 的 排队 规则 的 dequeue 
() 虚 函 数 

练习 


解释 为 什么 在 高 流量 负荷 的 情况 下 ， 使 用 新 的 net_rx_action () 函数 会 降低 CPU 负载 


3.2 点 到 点 协议 

本 节 重 点 介绍 点 到 点 协议 (PPP)， 这 是 一 种 在 传统 拨号 上 [网 或 ADSL 上 网 中 广泛 使 用 的 协议 
PPP 源 于 一 种 老 的 但 是 广泛 应 用 的 协议 ， 高 级 数据 链 路 控制 (HDLC) 在 它 内 部 还 运行 着 两 个 协议 ， 
链 路 控制 协议 (LCP) 和 网 络 控 制 协议 (NCP)。 随 着 以 太 网 通过 桥接 设备 ， 如 ADSL 调制 解 调 需 将 家 
庭 和 组 织 机 构 连 接 到 因特网 服务 提供 商 (JSP) ， 就 出 现 了 对 以 太 网 点 到 点 协议 (PPPoF ) 的 需求 。 图 
3-8 表示 了 这 些 部 分 组 成 之 间 的 关系 


: 广泛 的 目的 ， 充 当 许多 数据 链 路 

办 议 的 其 而 | 

协议 的 基础 二 以 太 网 上 构建 PPP 链 路 
: 点 到 点 或 单 点 到 多 点 ， 主 次 模型 HDLC | 于 接 入 控制 和 计 费 
- 操作 : NRM.ARM.ABM i 










通过 点 到 点 链 路 传输 多 协 





议 强 据 报 ne 

- 仅 限于 点 到 点 ， 对 等 模型 

LCP 一 NCP 一 传输 数据 报 
建立 、 配 置 、 测 -建立 并 配置 不 同 层 协议 
试 PPP 连 接 
-后 面 是 一 个 NCP 

:后面 是 数据 报 传输 
-种 NCP 或 IP 

___-。 继承 自 | 

= NO .在 两 个 对 等 上 建立 和 配置 IP 协 议 栈 
Wai 与 …… 相 关 


“后 面 是 IP 数 据 报 传输 
图 3-8 PPP 相关 协议 之 间 的 关系 


3.2. 1 高 级 数据 链 路 控制 

HDLC 是 从 一 个 早期 的 协议 ，IBM 的 同步 数据 链 路 控制 协议 (SDLC) 演变 而 来 的 ， 它 是 一 个 ISO 标 
准 并 且 也 是 许多 链 路 层 协议 的 基础 。 例 如 ，PPP 使 用 与 HDLC 相似 的 成 帧 。IEEE 802. 2 逻辑 链 路 控制 
(LLC) 是 对 HDLC 的 修改 。CCITT (国际 电报 电话 咨询 委员 会 ) (1993 年 被 重 命名 为 TTU 国际 电信 联盟 ) 
修改 了 HDLC， 将 它 作为 X. 25 标准 的 一 部 分 ， 称 为 平衡 链 路 访问 规程 (LAP-B)。 在 所 有 上 述 的 变种 中 ， 
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HDLC 支持 点 到 点 链 路 和 单 点 到 多 点 链 路 、 半 双 下 和 全 双 工 链 路 。 下 面 我 们 来 看 看 HDLC 的 操作 

HDLC 操作 : 介质 访问 控制 

在 HDLC 中 ， 节 点 既 可 以 充当 主 站 也 可 以 充当 次 站 。 HDLC 支持 以 下 三 种 传输 模式 ， 每 一 种 提供 
一 种 控制 节点 访问 介质 的 方法 

正常 响应 模式 (NRM) : 次 站 只 能 被 动 地 传送 数据 以 回应 主 站 的 轮 询 。 响 应 可 由 一 个 或 多 个 帧 组 
成 。 在 单 点 色 多 点 的 情况 下 ， 次 站 通过 主 站 通信 

异步 响应 模式 (ARM) : 次 站 可 在 没有 主 站 轮 询 的 情况 下 发 起 数据 传输 ,但 是 主 站 仍然 负责 控制 
连接 。 
异步 平衡 模式 (ABM): 通信 中 的 每 一 方 都 可 充当 主 站 和 次 站 ， 所 以 两 种 站 点 具有 平等 的 地 位 
这 种 类 型 的 站 点 称 为 组 合 站 ， 

NRM 常用 于 单 点 到 多 点 的 链 路 中 ， 就 像 一 台 计 算 机 和 人 它 的 终端 之 问 的 连接 一 样 。 尽管 ARM 很 少 
使 用 ， 然 而 它 在 点 到 点 链 路 中 具有 优势 , 但 ABM 会 更 好 一 些 ，ABM 具有 更 少 的 开销 就 像 主 站 轮 询 所 
具有 的 特性 一 样 ， 双 方 中 的 每 一 方 都 可 以 控制 链 路 。ABM 特别 适 于 点 到 点 链 路 。 

数据 链 路 功能 : 成 帧 、 寻 址 和 差错 控制 

我 们 可 以 直接 通过 检查 帧 的 格式 来 研究 HDLC 的 成 帧 、 寻 址 和 差错 控制 问题 ， 然 后 讨论 流量 控制 
和 介质 访问 控制 图 3-9 描述 了 HDLC 帧 格式 


8 8 8 16 8 


任意 
图 3-9 HDLC 帧 格式 

标志 : 标志 值 固 定 用 01111110 来 定 界 帧 的 开头 和 结尾 。 如 3.1.1 节 中 所 示 ， 利 用 位 填充 来 避免 实 
际 数据 和 标志 值 之 间 的 歧义 性 。 

地 址 : 地 址 表示 传输 中 包含 的 次 站 ,尤其 是 在 单 点 到 多 点 的 情况 下 。 一 个 次 站 是 在 主 站 的 控制 下 
人 作 的 ， 如 同上 上 面 提 到 的 在 HDLC 中 的 操作 一 样 。 

控制 : 这 一 字段 指示 帧 的 类 型 ， 也 指示 了 其 他 控制 信息 ， 如 帧 的 序列 号 。HDLC 具有 三 种 类 型 的 
帧 信息、 监管 和 无 序 帧 。 我 们 将 在 后 面 更 详细 地 研究 它们 。 

信息 : 信息 字段 可 以 是 任意 长 度 的 位 。 它 承载 将 要 传送 的 数据 有 效 载 往 。 

FCS; 一 种 16 位 的 CRC-CCITT 码 。HDLC 允许 肯定 的 和 和 否定 的 确认 。 在 HDLC 中 的 差错 控制 是 
复杂 的 。 肯定 的 确认 表明 一 个 帧 或 者 所 有 帧 成 功 地 到 达 一 点 ， 而 否定 的 确认 拒绝 某 个 接收 的 帧 或 者 
某 个 指定 的 帧 。 这 里 我 们 不 再 做 过 多 的 讨论 。 感 兴趣 的 读者 可 以 自行 阅读 “进一步 阅读 ”中 的 补充 
材料 

数据 链 路 功能 : 流量 控制 和 差错 控制 

HDLC 中 的 流量 控制 也 使 用 滑动 窗口 机 制 。 发 送 方 保留 了 一 个 计数 器 以 便 记 录 下 一 个 要 发 送 帧 的 
序列 号 。 男 一 方面 ， 接 收 方 也 保留 了 一 个 计数 器 用 以 记录 下 一 个 将 要 到 达 帧 的 期 望 序列 号 ， 并 负责 检 
查 接收 到 的 帧 的 序列 号 是 香 与 期 望 得 到 的 帧 的 序列 号 相 匹 配 。 如 果 序 列 号 正确 并 且 帧 没有 出 错 ， 那 么 
接收 方 将 其 计数 器 加 1， 然 后 通过 发 送 一 个 包含 有 下 一 个 期 望 序列 号 的 消息 肯定 确认 发 送 方 。 如 果 接 
收 帧 不 是 所 期 望 的 或 者 利用 FCS 字段 检测 到 帧 出 错 ， 那 么 将 丢 弃 这 个 帧 ， 并 且 将 向 发 送 方 发 送 否定 确 
认 并 请 求 重新 转发 。 一 旦 收 到 指示 帧 需要 重 发 的 否定 确认 ， 发送 方 将 重新 发 送 。 这 个 方法 就 是 HDLC 
中 的 差错 控制 

帧 类 型 

这 些 切 能 是 通过 各 种 各 样 的 帧 来 实现 的 。 信 息 帧 ， 又 称 为 T 帧 ， 承 载 来 自 上 上 层 的 数据 ， 也 承载 
其 些 控制 信息 ,包括 两 个 3 位 字段 ， 分 别 记 录 它 自己 的 序列 号 以 及 来 自 接收 方 的 确认 号 。 正 如 前 面 
提 到 的 那样 ， 这 些 序 列 号 用 来 实现 流量 控制 和 差错 控制 。 轮 询 / 终 止 (PAF) 也 包含 在 控制 信息 中 以 
便 指 示 轮 询 是 来 日 一 个 主 站 还 是 来 自 次 站 的 王 次 响应 。 监 督 帧 ， 又 称 为 S- 帧 ， 仅 携带 控制 信息 。 在 
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前 面 我 们 对 HDLC 帧 格式 的 讨论 中 ,无 论 肯 定 确认 还 是 否定 确认 都 文 持 差错 控制 。 一旦 出 现 错 遂 ， 
根据 控制 信息 中 的 规定 。 发 送 方 可 以 重 发 所 有 超常 帧 也 可 以 仅 重 传 出 错 的 帧 。 接 收 方 也 可 以 向 发 送 
方 发 送 一 个 S$- 帧 ， 请 求 临时 停止 传输 操作 。 无 序号 帧 ， 称 为 =- 帧 ， 也 用 于 控制 的 目的 ， 但 是 它 不 
携带 任何 序列 号 ， 故 此 得 名 U = 帧 包括 各 种 命令 ， 用 于 模式 设置 、 信 息 转 发 和 恢复 ， 这 里 我 们 不 进 
行 详 细 讲 解 


3.2.2 点 到 点 协议 

PPP 是 一 种 由 IETF 定义 的 标准 协议 ， 它 通过 点 到 点 链 路 承载 多 协议 数据 包 。 它 广泛 用 于 拨号 网 和 
租用 线路 访问 下 联网。 为 了 忒 载 多 协议 数据 包 ， 它 包括 三 个 主要 组 成 部 分 : 

1) 一 种 用 于 封装 来 自 网 络 层 数据 包 的 封装 方式 。 

2) 一 种 用 于 处 理 连 接 建 立 、 配置 和 断 开 循 环 的 链 路 控制 协议 。 


3) 一 种 用 于 配置 不 同 网 络 层 选 项 的 网 络 控制 协议 (NCP)。 我们 首先 查看 PPP 的 操作 方式 ， 然 后 
了 解 它 的 功能 
PPP 操作 


在 服务 订购 场景 下 ， 在 进入 类 似 于 HDLC 的 MAC 操作 之 前 ，PPP 首先 要 完成 登录 和 配置 后 才能 发 
送 数据 包 。，PPP 操作 遵循 图 3-10 中 所 示 的 阶段 图 。PPP 首先 要 发 送 LCP 数据 包 来 建立 和 测试 连接 。 连 
接 建立 后 ， 发 起 连接 的 对 等 在 交换 网 络 层 数据 分 组 之 前 可 能 要 对 它 进 行 认证 。 然 后 PPP 开始 发 送 NCP 
数据 包 以 便 配置 用 于 通信 的 一 个 或 多 个 网 络 层 协 议 。 配 置 完成 后 ， 网 络 层 数据 分 组 在 连接 终止 之 前 通 


过 链 路 发 送 
认证 
ea 的 
终止 网 络 层 
(Terminate) (Network) 


图 3-10 PPP 连接 建立 和 释放 的 阶段 图 

我 们 将 解释 图 3-10 中 的 每 一 个 主要 状态 迁移 变化 。 

不 可 用 到 建立 (Dead to Establish) : 在 对 等 方 开 始 使 用 链 路 时 ， 通 过 载波 检测 或 网 络 管理 者 配置 激 
活 这 个 状态 迁移 阶段 

建立 到 认证 〈Establish to Authenticate) : LCP 通过 对 等 之 间 交 换 配 置 数 据 包 来 建立 连接 。 所 有 不 需 
协商 的 选项 ， 直 接 配 置 为 它们 的 默认 值 。 只 有 独立 于 网 络 层 的 选项 才 需 要 进行 协商 ， 网 络 层 协议 配置 
的 选项 留 给 NCP 来 完成 

鉴别 认证 连接 到 网 络 ( Authenticate to Network ) : 认证 在 PPP 中 是 可 选 的 ， 但 是 如 果 是 链 路 建立 阶 
段 所 需要 的 ， 那 么 将 会 切换 到 认证 阶段 ， 如 杂 认 证 失败 ， 则 连接 终止 ; 和 否则， 合适 的 NCP 将 开始 协商 
每 一 个 网 络 层 协议 。 

网 络 连 接 终止 ( Network to Terminate) : 很 多 情况 下 都 会 发 生 终 止 ， 包括 载波 丢失 、 认 证 失败 、 空 
闲 连 接 过 期 、 用 户 终止 等 ，LCP 负责 交换 终止 数据 包 来 关闭 连接 ， 稍 后 PPP 会 告诉 网 络 层 协议 关闭 。 

有 三 种 类 型 的 LCP 帧 : 配置 、 终 止 和 维护 。 一 对 Configure=request (配置 请 求 ) 和 Configure-ack 帧 
(配置 确认 帧 ) 可 以 打开 一 条 连接 。 选项 (如 最 大 可 接收 单元 或 者 认证 协议 ) 在 连接 建立 期 间 是 可 以 
协商 的 。 表 3-2 总 结 了 其 他 的 功能 。LCP 帧 是 PPP 帧 的 一 种 特殊 情况 。 因 此 ， 在 我 们 考虑 LCP 帧 格式 
之 前 ,我 们 首先 介绍 PPP 帧 的 格式 。 

数据 链 路 功能 : 成 帧 、 寻 址 和 差错 控制 

PPP 帧 被 封装 到 一 个 类 似 于 HDLC 帧 的 格式 中 ， 如 图 3-11 所 示 。 标 志 值 恰好 与 HDLC 相同 。 它 为 
成 帧 提供 定 界 符 


鉴别 成 功 / 无 须 鉴别 







不 可 用 | 启动 建立 
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表 3-2 LCP 帧 类 型 
类 类 型 功 能 
Configure-request 通过 对 选项 做 出 需要 的 更 改 来 打开 一 条 连接 
配置 Configure-ack | 确认 配置 请 求 
i Configure-nak | 让 诗 不 可 接收 的 选项 而 拒绝 配置 请 求 
Configure-reject 由 于 不 可 识别 的 选项 而 拒绝 配 略 请 求 
缀 让 Terminate-request 请 求 类 闭 连 接 
Terninate-ack 人 确认 终止 请 求 
Code-rejecl 来 自 对 等 的 未 知 请 求 
Protocol-reject 来 自 对 等 的 不 支持 的 协议 
维护 Fcho-request 回 啊 请 求 (用 于 调试 ) 
Echo-reply 用 于 对 回响 请 求 的 响应 〈 仅 用 于 调试 ) 
Discard-request 仅 丢 弃 请 求 〈 用 于 调试 ) 








标志 | 地址 | 控制 机 本 ECS | 标志 





oO DID | 00000011 O1111110 





位 8 3 3 8 或 16 任意 16 或 32 8 
图 3-11 PPP 帧 格式 

PPP 帧 和 HDLC 帧 之 间 的 区 别 总 结 如 下 : 

1) 地 址 值 固 定 为 11111111， 这 是 HDLC 格式 中 的 所 有 站 点 地 址 。 因 为 在 点 到 点 链 路 中 只 有 两 个 对 
等 ， 所 以 就 不 震 要 指出 单独 站 点 的 地 址 : 

2) 探 制 码 具 有 癌 定 的 值 00000011， 它 对 应 于 HDLC 中 的 无 序号 帧 格式 。 这 意味 着 在 默认 时 ，PPP 
无 序号 和 确认 。 感 兴趣 的 读者 可 参考 RFC1663 文档 ， 其 中 定义 了 一 个 扩展 部 分 以 使 PPP 连接 可 靠 

3) 添加 的 协议 字段 指示 这 个 帧 携带 的 是 何 种 类 型 的 网 络 层 协议 ，IP 或 TPX， 它 的 默认 字段 长 度 是 
Er 但 是 使 用 LCP 协商 可 将 它 减 少 到 8 位 

) 信息 字段 的 最 大 长 度 称 为 最 大 接收 单元 ， 默 认为 1500 字 节 。MRU 的 其 他 值 是 可 以 协商 的 。 

默认 FCS 校 验 长 度 为 16 位 ， 但 是 它 可 以 通过 LCP 协商 扩展 至 32 位 。 如 果 帧 内 部 检测 到 错误 ， 
则 丢弃 该 帧 。 帧 的 重 传 由 上 上 层 协议 负责 

数据 链 路 功能 : 无 流量 控制 和 介质 访问 控制 

由 于 PPP 是 全 双 工 方式 且 在 点 到 点 链 路 中 仅 有 两 个 站 点 ， 所 以 PPP 不 需 杰 介质 访问 控制 。 另 一 方 
面 ，PPP 也 不 提供 流量 控制 ， 而 是 将 该 功能 留 给 上层 协议 去 处 理 . 

LCP 和 NCP 协商 

LCP 帧 是 一 种 带 有 协议 字段 值 为 0xe021 的 PPP 帧 ，0x 代表 十 六 进 制 数 。 协 商 信息 以 如 下 4 个 主 字 
段 形 式 杏 入 到 信息 字段 中 : 编码 (Code) 表示 LCP 类 型 ， 标志 符 (Identifier) 用 来 匹配 请 求 和 响应 ， 
长 度 (Length) 指示 4 个 字段 的 总 长 度 ， 数 据 (Data) 部 分 携带 协商 选项 ， 

于 在 因特网 中 IP 是 占据 主导 位 置 的 网 络 协议 ， 所 以 我 们 特别 对 PPP 上 的 IP 感 兴趣 。 我 们 将 在 
3.2.3 节 介 绍 用 于 IP 的 NCP 一 一 因特网 协议 控制 协议 (IPCP) 。 


3.2.3 因特网 协议 控制 协议 

IPCP 是 用 来 配置 PPP 上 1P 的 NCP 中 的 一 个 协议 。PPP 首先 通过 LCP 建立 起 一 条 连接 ， 然 后 使 用 
NCP 来 配置 它 所 承载 的 网 络 层 协 议 。 配 置 后 ， 数 据 数据 包 就 可 以 通过 链 路 传输 ke 
LCP 的 帧 格式 ， 并 且 它 的 帧 也 是 将 协议 字段 设置 为 0x8021 的 一 种 特殊 PPP 帧 。IPCP 使 用 的 交换 机 制 也 
类 似 于 LCP, 通过 IPCP， 在 两 个 对 等 上 的 IP 模块 都 可 设置 成 被 激活 、 配 置 和 禁止 

IPCP 提供 配置 选项 ;IP 地 址 、IP 不 缩 协议 和 人 地 址 。 第 一 个 选项 已 经 废弃 ， 被 第 三 个 选项 所 代 


多 及 必 2 





符 ”第 二 个 选项 指示 使 用 Van Jacobson TCP/IP 头 部 压缩 。 第 三 个 选项 允许 对 等 提供 一 个 在 本 地 终端 
| 使 用 的 叫 地 址 在 TPCP 洲 黄 之 后 ， 8 通 IP 分 组 可 以 在 PPP 链 路 上 通过 将 IP 分 组 封装 到 协议 字段 值 
设置 为 0x0021 的 PPP 幢 中 来 转 % 


开源 实现 3.4: PPP 驱动 程序 

概述 

PPP 在 Linux 中 的 实现 由 两 部 分 组 成 : 数据 平面 PPP 驱动 程序 和 控制 平面 PPP 守护 程序 (PPPd)， 
PPP 驱动 程序 建立 一 个 网 络 接口 ， 并 在 串口 、 内 核 网 络 编码 和 PPP 守护 程序 之 间 传 递 数据 包 。，PPP 驱 
动 程序 负责 在 3.2.2 节 中 描述 的 数据 链 路 层 功能 。PPPd 与 对 等 进行 协商 以 便 建 立 链 路 连接 并 建立 PPP 
网 络 接口 。 PPPd 也 支持 认证 ， 因 此 它 可 以 控制 哪个 系统 可 以 建立 一 条 PPP 连接 并 能 够 指定 它们 的 下 
地 址 

框图 

PPP 驱动 程序 由 PPP 通用 层 和 PPP 信道 驱动 程序 组 成 ， 如 图 3-12 所 示 


pppd 
内 核 
pppd “| 处 理 控制 平面 数据 包 


PPP 通 用 层 内 核 “| 处 理 数据 平面 数据 包 


PPP 信 道 驱动 程序 PPP 处 理 PPP 网 络 接口 、/dewppp 设 备 、VJ 压 缩 、 多 链 路 
通用 层 
tty 设 备 驱动 程序 PPP 
信道 驱动 | 处 理 封装 和 成 帧 
申 行 线路 a 


图 3-12 ”PPP 软件 架构 












































在 Linux 中 有 异步 和 同步 PPP 驱动 程序 (参见 drivers/net 目录 下 的 ppp async.c 和 ppp 
synctty.c)。 两 者 的 不 同 之 处 在 于 PPP 信道 驱动 程序 所 连接 的 tty 设备 类 型 。 当 连接 的 tty 驱动 程 
序 是 一 个 同步 HDLC 卡 时 ， 如 FarSite 通信 有 限 公司 的 FarSync T 系列 串口 卡 ， 就 使 用 同步 PPP 信道 驱 
动 程序 。 另 一 方面 ， 当 tty 驱动 程序 是 异步 串 行 线路 ， 如 英 飞 凌 (Infineon) 科技 公司 制造 的 PEB 
20534 控制 器 时 ， 就 使 用 异步 PPP 信道 驱动 程序 

与 两 种 驱动 程序 相关 的 输入 /输出 〈LLO) 函数 指针 在 tty ldisc ops 数据 结构 中 定义 ， 通 过 它 
关联 /0 函数 就 可 以 正确 地 激活 。 例 如 ， 对 于 异步 PPP 的 read 字段 指向 ppp asynctty read(); 而 
对 于 同步 PPP 的 read 则 指向 ppp_ sync_read () 

我 们 下 面 介 绍 一 般 通 用 数据 包 流 的 发 送 和 接收 ， 因 为 它们 可 以 更 好 地 反映 PPP 驱动 程序 中 的 数据 
包 流 。 我们 不 再 深入 介绍 两 种 PPP 驱动 程序 的 详细 内 容 

算法 实现 

数据 包 传 输 

将 要 发 送 的 数据 包 存 储 在 sk buff 结构 中 。 将 给 它 传 递 给 ppP_ start_xmit () ， 它 给 数据 包 添 加 
PPP 头 部 并 将 数据 包 存 储 在 转发 队列 中 ， 也 就 是 xq 中 (参见 ppp generic. c 中 的 ppp file 数据 
结构 )。 最后，ppp start xmit() 调 用 ppp xmit process () ， 将 数据 包 从 xq 队列 取出 ， 然 后 调用 
ppp_send frame () 来 对 数据 包 进 行 处 理 ， 比 如 头 部 压缩 ， 这 一 步 之 后 ，ppp send frame () 既 可 以 
调用 异步 PPP 函数 ppp async send()， 也 可 以 调用 同步 PPP 函数 ppp sync send () ， 通 过 单独 的 
驱动 程序 发 送 数 据 包 

数据 包 接 收 

当 同 步 或 异步 驱动 程序 接收 到 一 个 到 达 的 数据 包 时 ， 将 这 个 数据 包 传 递 给 PPP 通用 驱动 程序 的 
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ppp input () 函数 ， 它 会 将 到 达 的 数据 包 加 入 接收 队列 中 ， 也 就 是 rq 中 。PPPd 将 通过 /dev/ppp 设 
备 从 队列 中 读 取 数 据 包 

练习 

讨论 为 什么 PPP 功能 在 软件 中 实现 ， 而 以 太 网 功能 要 在 硬件 中 实现 


3.2.4 以太 网 上 的 PPP (PPPoE) 


对 PPPoE 的 需求 

随 着 以 太 网 技术 变 得 更 价 廉 并 占据 市 场 主导 地 位 ， 用 户 在 家 或 者 办 公 室 建立 以 太 局 域 网 并 不 罕见 。 
男 一 方面 ， 宽 带 接 入 技术 ， 比 如 ADSL, 已 经 成 为 家 庭 或 者 办 公 室 访问 因特网 的 一 种 普遍 方法 。 在 以 大 
网 局 域 网 上 的 多 个 用 户 通过 使 用 同 宽 带 桥 接 设 备 访问 因特网 ， 因 此 服务 提供 商 想 要 找到 一 种 类 似 于 挨 
号 上 网 的 服务 即 基 于 每 个 用 户 的 计 费 接 入 控制 

PPP 成 为 在 对 等 之 问 构 建 点 色 点 关系 的 一 种 传统 解决 方案 , 但 是 以 太 网 中 包含 多 个 站 点 。 以 太 网 
上 的 点 到 点 协议 (PPPoE) 就 是 用 来 协调 两 个 冲突 体系 的 概念 。 它 在 以 太 网 接口 之 上 上 建立 起 一 个 虚拟 
接口 ， 这 样 局 域 网 上 的 每 一 个 独立 站 点 都 可 以 与 一 个 远程 PPPoE 服务 建立 一 条 PPP 会 话 ， 这 个 服务 器 
位 于 [SP 中 ， 又 称 为 访问 集中 器 (AC)， 通过 公共 的 桥接 设备 相连 aa PPP 接 
口 看 成 拨号 服务 一 样 ， 但 是 PPP 帧 被 封装 在 以 太 网 帧 中。 通过 PPPoE， 用 户 计算 机 获得 一 个 IP 地 址 ， 
ISP 就 可 以 轻松 地 将 地 址 和 特定 的 用 户 名 和 密码 相关 联 ， 

PPPoE 操作 

PPPoE 的 运行 包括 两 个 阶段 : 发 现 阶 段 和 PPP 会 话 阶段 。 在 发 现 阶段 ， 用 户 站 点 发 现 访问 集中 
器 的 MAC 地 址 并 建 OA 一 个 独一无二 的 PPPoE 标志 符 也 被 分 配给 了 
这 个 会 话 ， 一 旦 会 话 建立 后 ， 两 个 对 等 方 进入 PPP 会 话 阶段 就 像 PPP 会 话 那样 工作 ， 即 进行 LCP 
协商 

发 现 阶段 分 为 以 下 4 个 步 又 进行 : 

1) 接 入 因特网 的 站 点 广播 一 个 初始 化 帧 ， 以 便 请 求 远 程 集中 融 发 回 它 们 的 硬件 地 址 

2) 十 程 访问 集中 甫 将 其 MAC 地 址 返回 

3) 最 初 发 起 请 求 的 站 点 选择 一 个 访问 集中 器 并 发 送 一 个 会 话 请 求 帧 给 被 选中 的 访问 集中 器 ， 

4) 访问 集中 器 产生 一 个 PPPoE 会 话 标志 符 并 返回 一 个 带 有 会 话 标志 符 的 确认 帧 。 

PPP 会 话 阶段 与 普通 PPP 会 话 方式 一 样 地 运行 ， 就 像 3.2.2 节 中 解释 的 那样 ， 除 了 在 以 太 帧 中 仅 
承载 PPP 帧 之 外 。 当 LCP 终止 一 个 PPP 会 话 时 ，PPPoE 会 话 也 会 被 拆除 。 一 个 新 的 PPP 会 话 将 从 发 现 
阶段 就 需求 一 个 新 的 PPPoE 会 话 

一 个 普通 PPP 终止 过 程 可 以 终止 一 个 PPPoE 会 话 。PPPoE 既 允 许 发 起 站 点 也 允许 访问 集中 器 发 送 
一 个 显 式 的 终止 帧 来 关闭 会 话 。 一 且 发 送 或 接收 到 一 个 终止 帧 时 ， 就 不 允许 再 传输 帧 了 ， 即 使 普通 的 
PPP 终止 帧 也 是 如 此 〈 即 不 允许 发 送 )， 


3.3 以 太 网 (IEEE 802. 3) 


IEEE 802. 3 最 初 是 由 Bob Metcalfe 在 1973 年 提出 ， 以 太 网 是 众多 局 域 网 技术 的 竞争 者 之 一 ， 但 最 
后 成 为 了 胜利 者 。 在 过 去 的 30 多 年 中 ， 以 太 网 被 彻底 修改 了 很 多 次 以 适应 新 的 需求 ， 从 而 产生 了 庞大 
的 IEEE 802. 3 标准 艇 ,并 旦 未 来 还 会 继续 演变 。 我 们 将 向 读者 介绍 以 太 网 的 演变 过 程 和 以 太 网 的 概 
念 ， 也 将 讨论 目前 开发 的 热门 话题 。 

3.3.1 以 太 网 的 演变 : 蓝图 

作为 标准 的 名 称 ， ep pee get (CSMAZCD ) 访问 方法 和 物理 层 规范 ”表明 ， 
以 太 网 明显 地 区 别 于 (如 仿 毅 ti 其 他 局 域 网 的 是 其 介质 的 访问 方法 。 以 太 网 技术 最 初 
于 1973 年 诞生 于 施乐 (Xerox) 实验 si DEC 、Intel 和 施乐 公司 于 1981 年 标准 化 ， 就 成 了 DIX 
以 太 网 技术 。 尽管 这 个 标准 与 谨 乐 pi 样 ， 但 这 个 标准 仍然 保留 了 CSMAZCD 的 精 艇 


经 骂 尾 





到 了 1983 年 ， 
IEEE 802. 3 标准 。 由 于 施乐 公司 放弃 了 名 为 “ 
个 术语 时 ， 它 们 之 间 已 不 存在 差别 。 尝 实 上， 
斌 一 下 引领 着 以 太 网 的 发 展 ， 图 3-13 描绘 


“以 太 网 ”的 商标 后 


IEEE 802. 3 工作 组 批准 了 经 过 微小 改动 后 的 DIX 以 太 网 标准 
当 人 们 提 到 以 太 网 和 下 EE 802. 3 两 
IEEE 802.3 工作 组 自从 制订 了 第 一 
:了 了 以 太 网 发 展 的 里 程 碑 . 在 过 去 的 30 年 里 ， 
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该 标准 成 为 后 来 著名 的 


se 它 
经 历 了 多 次 


重大 的 修改 ， 这 里 我 们 只 列 出 了 主要 的 发 展 趋势 
DIX 
以 大 网 版 本 IEEE 802.3 
3Mb/s 实验 以 太 网 DIX 联 盟 创立 1 (10Mb/s) DIX 版 本 2 (10BASES ) 
1973 1980 1981 1982 1983 
全 双 工 以 太 网 100BASE-T 10BASE-F 10BASE-T 10BASE-2 
1997 19953 19935 1990 1985 
1000BASE-X 1000BASE-T 链 路 聚合 10GBASE 光纤 第 一 公里 以 太 网 
1998 1999 2000 2002 2003 
发 展 到 40-100G 10GBASE-T 
| | 2008 2006 | 
图 3-13” 以太 网 发 展 过 程 中 的 里 程 碑 
从 低速 到 高 速 : 从 运行 于 3Mbps 的 原型 提高 到 10Cbps， 速 度 已 经 提高 了 3000 倍 ， 目 前 正在 进行 的 
「 作 (IEEE 802. 3ba) 旨 在 将 数据 率 进 一 步 提高 到 40 ~100Gbps。 尽 管 令 人 吃惊 ,但 这 项 技术 仍然 很 说 


价 ， 它 被 世界 广泛 接受 
我 们 相信 以 太 网 将 成 为 有 线 连 接 中 的 无 处 不 在 的 技术 


从 共享 到 专用 介质 : 早期 的 以 大 网 运行 在 同 轴 电 缆 构 成 的 总 线 式 结构 上 ， 
MAC 算法 共享 总 线 ， 因 此 在 以 太 网 总 线 上 的 冲突 很 常见 。 随 着 10BASE-T 的 开发 ， 两 台 


占 专 用 介质 成 为 主流 。 独 占 专 用 介质 是 后 来 开发 的 全 双 工 以 太 网 所 必需 的 。 
独占 专用 介质 同时 发 送 ， 这 样 便 有 效 地 加 们 了 之 觉 

从 局 域 网 到 城 域 网 再 到 广域网 :以 太 网 二 
和 广域网 市 场 发 展 。 首 先是 成 本 。 
采用 以 太 网 技术 ， 那 么 它们 之 间 互 操作 性 的 实现 将 花费 更 少 的 劳力 和 人 金 
点 ,全 双 工 取消 了 对 CSMAZCD 的 需要 ， 从 而 放宽 了 
能 远 地 传输 到 物理 链 路 可 达 的 任何 地 方 

丰富 的 媒介 : 术语 “以 太 ” 曾 被 认为 是 
来 传输 数据 ， 但 是 它 的 确 运 用 各 种 介质 来 承载 信息 
体 !” 一 一 这 是 Rich Seifert 在 他 的 《Gigabit Ethe a (1998) 
它们 可 以 运行 的 介质 ， 表 3-3 列 出 了 所 有 802. 3 族 的 成 员 。 

并 不 是 所 有 的 802. 3 成 员 在 商业 上 部 取得 了 成 功 。 比 如 ， 
产品 。 相 反 ， 有 些 则 是 很 成 功 的 ， 
100BASE-TX 网 络 接口 卡 (NIC)， 目 前 大 多 数 台 
以 太 网 接口 。 括 号 中 的 数字 表示 IEEE 批准 规范 的 年 代 


让 传播 的 电磁 波 通 过 空间 的 介质 
: 同 轴 电 缆 、 


一 书 中 描 儿 


以 太 网 技术 已 构建 到 几乎 所 有 的 台式 计算 机 的 主 - 板 和 笔记 未 计算 机 的 主板 中 。 


多 站 点 利用 CSMAZCD 
设备 之 间 的 独 


全 双 工 允许 两 个 站 点 通过 


址 著名 的 局 域 网 技术 。 有 两 个 因素 使 以 太 网 技术 向 城 域 网 
以 太 网 因 基 简单 性 ， 而 使 其 实现 成 本 较 低 。 如 果 城 域 网 和 广域网 也 
钱 。 第 二 个 因素 是 全 
对 以 太 网 使 用 距离 上 的 限制 一 一 数据 就 可 以 尽 可 


双 工 的 特 


尽管 以 太 网 从 未 使 用 以 太 
双 绞 线 和 光纤 
会 的 美好 情景 


“以 太 网 就 是 多 媒 
按照 网 速 以 及 


100BASE-T2 就 是 一 个 从 来 没有 商业 化 的 
几乎 每 个 人 者 可 以 在 连接 到 局 域 网 的 计算 机 后 面 找到 10BASE-T 或 
i 式 计算 机 的 新 主板 都 带 有 100BASE-TX 或 1000BASE-T 


100 | | 务 了 每 














机 同 轴 电 线 双 绞 线 光纤 
速 度 一 
| 本 时 
ed 1BASES (1987) 
10Mbps L 
人 2BASE-TL (2003) 
vi | _ 
I0BASES (1983 ) | 0BASE-FL (1993) 
10BASE-T (1990) a 
10Mbps 10BASE2 (1985) A 10BASE-FP (1993) 
10PASS-TS (2003) 
10BROAD36 (1985) IOBASE-FB (1993) 





100BASF-TX (1995) 
100Mbps 100BASE-T4 (1995) 
I00BASE-T2 (1997) 


100BASE-FX (1995) 
100BASE-LXABX10 (2003) 





1000BASE-SX (1998) 
1000BASE-CX (1998) 1000BASE-L,X (1998) 
1000BASE-T (1999) 1000BASFE-LXZBXI0 (2003) 
1000BASE-PX10/20 (2003) 


1Gbps 





10GBASE-R (2002) 
10Cbps 10GBASE-T (2006) 10CBASE-W (2002) 
I0GBASE-X (2002) 











以 太 网 术语 

以 大 网 有 着 众多 的 物理 规范 ， 如 表 3-3 所 示 。 标注 按 11710710071000710G1 | BASEZBROADZPASS 
phy 格式 进行 。 第 一 项 是 速度 . 第 三 项 说 明 信 号 是 基带 还 是 宽带 。 儿 乎 所 有 的 以 太 网 信号 都 是 基带 信号 ， 
除了 旧 的 10BROAD36 和 10PASS-TS 之 外 。 最 初 的 第 三 项 表示 以 100m 为 单位 的 最 大 长 度 ， 在 第 二 项 和 
第 二 项 之 问 没有 人 破 折 号 ， 后 来 改 成 用 来 表示 物理 规范 ， 如 介质 类 型 和 信号 编 合 ， 并 在 第 二 项 和 第 王 项 
之 间 使 用 破 折 号 


历史 演变 : 以 太 网 的 竞争 对 手 

历史 上 ， 有 些 局 域 网 技术 ， 如 令 牌 环 、 令 牌 总 线 、FDDL、DQDB 和 ATM 局 域 网 仿真 曾经 与 以 太 网 
竞争 ， 但 最 终 以 太 网 在 有 线 局 域 网 系统 中 脱颖而出 。 以 太 网 成 功 背 后 的 根本 原因 在 于 以 太 网 比 其 他 技 
术 更 简单 ， 简 单 意味 着 更 低 的 成 本 ， 人 们 不 愿意 支付 比 必需 更 多 的 费用 ， 从 这 一 方面 来 讲 以 太 网 肯定 
会 胜出 。 

以 太 网 为 什么 会 比 其 他 技术 更 便宜 ? 以 太 网 没有 其 他 技术 可 提供 的 花哨 功能 ， 如 优先 机 制 、 服 
务 质量 机 制 和 中 央 (集中 ) 控制 。 因此 以 太 网 并 不 需要 处 理 令 牌 ， 也 没有 离开 和 加 入 环 的 复杂 性 
CSMA/CD 相当 简单 ， 可 以 很 容易 地 在 硬件 逻辑 中 实现 (参见 开源 实现 3.5)。 全 双 工 更 简单 。 这 种 优 
点 使 以 太 网 成 为 最 终 的 赢家 

然而 ， 目 前 以 太 网 仍然 遇 到 了 许多 竞争 者 。 其 中 最 强劲 的 对 手 就 是 无 线 局 域 网 。 无线 网 具有 高 度 
的 移动 性 ， 这 是 以 太 网 不 具备 的 特点 。 只 要 需要 移动 性 ， 无 线 局 域 网 将 获胜 。 但 是 ， 当 移动 性 不 是 必 
要 的 时 ， 比 如 台式 计算 机 ， 以太 网 仍然 是 大 多 数 人 的 选择 ， 因 为 大 多 数 主板 内 置 了 以 太 网 接口 。 另 一 
方面 ， 以 太 网 还 试图 将 自己 扩展 用 于 第 一 公里 和 广域网 技术 中 。 鉴于 目前 拥有 大 量 基 于 xDSL 和 SONE 
技术 的 安装 ， 如 果 更 换 不 可 避免 ， 我 们 认为 以 太 网 将 花 很 长 时 间 去 逐步 取代 它们 。 出 于 同样 的 原因 ， 
尽管 以 太 网 是 如 此 流行 ， 但 是 如 果 现 有 的 安装 很 便宜 也 很 令 人 满意 ， 那 么 更 换 可 能 永远 不 会 发 生 


3.3.2 以 太 网 MAC 

以 太 网 成 帧 、 寻 址 和 差错 控制 

802.3 MAC 子 层 是 独立 于 介质 的 以 太 网 部 分 。 与 逻辑 链 路 控制 (LLC) 子 层 一 起 在 IEEE 802. 2 中 
指定 ， 它们 一 起 构成 OSI 模型 中 的 数据 链 路 层 . 与 MAC 子 层 相 关 的 功能 包括 数据 封装 和 介质 访问 控 
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制 ， 以 及 用 于 15C 子 层 的 功能 日 的 是 成 为 以 太 网 、 令 牌 环 、 无 线 局 域 网 等 的 公共 接口 。 在 像 网 桥 配置 
的 功能 中 Linux 也 实现 了 后 一 部 分 ， 因 为 配置 帧 是 以 LLC 格式 指定 的 〈 参 见 3.6 和 节 )。 图 3-14 为 我 们 给 
出 子 无 标记 ”的 以 太 网 帧 .通过 帧 格式 ， 我 们 首先 介绍 了 以 太 网 成 帧 、 寻 址 、 差 错 探 制 ， 而 将 接 入 控 
制 和 流量 控制 问题 留 到 以 后 再 讨论 








前 导 符 
5 入 7 | 0 [8 2 40-1500 4 
SPD 帧 定 界 开始 符 DA: 目的 地 地 址 SA 源 地 址 T/L: 类 型 长 度 


ECS 帆 校 验 序列 
图 3-14 以 太 网 帧 格式 

前 导 符 : 该 字段 同步 在 接收 端的 物理 信号 定时 。 它 的 值 固定 长 56 位， 以 1010…1010 的 顺序 传 
箱 请 注意 ， 帆 边界 是 以 特殊 的 物理 编码 或 通过 无 信号 来 标识 ， 有 具体 取决 于 PHY 是 如 何 指定 的 例 
如 ，100BASF-X 以 太 网 中 将 前 导 符 中 的 第 一 个 字 节 ZI1010Z1010X 使 用 4BZ5B 编码 转换 成 值 为 110007 
100017 的 两 个 特殊 代码 组 AJAKA 4BZSB 编码 将 止 常 值 1010 (以 传输 顺序 ) 转换 成 01011 以 免 产 生 玻 
义 。 同 样 ，100BASE-X 会 添加 是 个 值 为 /01101Z10001 的 特殊 代码 组 /TVR 来 标记 帧 的 结 

SFD: 此 字段 指示 在 传输 顺序 中 有 具有 值 为 10101011 的 帧 的 开始 。 从 历史 上 看 ，DIX 以 太 网 标准 指 
定 一 个 8 字 节 的 前 导 符 ， 正 好 与 802.3 帧 中 的 前 两 个 字段 的 值 完 全 相同 ， 只 是 命名 于 有 所 区 别 而 已 

DA: 该 学 段 包 括 48 位 以 3.1.2 节 中 介绍 过 的 格式 表示 的 目的 地 MAC 地 址 。 

SA: 该 字段 包括 48 位 源 MAC 地 址 。 

类 型 /长 度 : 出 于 历史 原因 ， 这 个 字段 包含 两 个 含义 。DIX 标准 指定 该 字段 为 一 个 有 效 载荷 协议 类 
型 的 代码 ， 比 如 IP， 而 IEEE 802.3 标准 指定 该 字段 是 数据 字段 中 的 长 度 ， 而 将 协议 类 型 留 给 LLC 子 
层 . 以 后 的 802. 3 标准 (1997 年 ) 又 批准 了 类 型 字段 ， 导致 出 现 了 目前 对 该 字段 所 具有 的 双重 诠释 
区 分 它们 的 方法 很 简单 :因为 数据 字段 永远 不 会 大 于 1500 字 节 ， 即 数据 字段 的 值 小 于 或 等 于 1500 字 
节 的 就 是 长 度 字段 ， 而 数据 字段 的 值 大 于 或 等 于 1536 (0X600) 字 节 的 则 是 类 型 字段 。 虽 然 目 的 不 同 ， 
但 这 两 种 诠释 的 共存 正 是 由 于 上 述 而 很 容易 区 分 ， 介 于 两 者 之 间 的 值 没有 定义 。 大 多 数 帧 将 该 字段 用 
作 类 型 字段 ， 就 是 因为 占 主导 地 位 的 网 络 层 协议 ， 也 就 是 IP， 使 用 它 作为 类 型 字段 

数据 : 这 一 字段 携带 着 46 ~1500 字 节 大 小 的 数据 

FCS: 这 一 字段 携带 32 位 CRC 码 作为 帧 校 验 序列 。 如 果 接 收 端 发 现 一 个 不 正确 的 帧 ， 则 默默 丢 痉 
该 帧 。 但 是 发 送 端 对 帧 是 否 被 天 充 则 一 无 所 知 。 帧 重 传 的 责任 留 给 虐 层 协议 ， 如 TCP 协议 来 处 理 ， 这 
种 方法 非 泗 有 效 ， 因 为 为 了 启动 下 一 次 发 送 ， 发 送 端 不 需要 等 竺 确认 。 这 里 ， 错 误 不 是 一 个 大 问题 ， 
因为 误 码 率 在 以 太 网 物理 层 是 非常 低 的 

帧 的 大 小 是 可 变 的 。 我 们 经 常 除去 前 两 个 字段 ， 以 太 网 帧 的 最 小 长 度 就 为 64 ( =6 +6+2 +46 +4) 
字 节 ， 最 大 长 度 为 15318 (=6+6+2+1500+4) 字 节 

介质 访问 控制 : 发 送 和 接收 流 

我 们 现在 来 看 看 帧 是 如 何在 以 太 网 MAC 内 部 发 送 和 接收 的 ， 你 将 会 非常 详细 地 看 到 CSMAZCD 是 
如 何 工 作 的 。 图 3-15 显示 了 MAC 子 层 在 帧 发 送 和 接收 过 程 中 所 起 的 作用 。CSMAZCD 以 一 种 和 名 字 合 
义 一 样 的 方式 工作 。， 当 有 帧 传输 时 ，CSMAZCD 首先 侦 听 电缆 。 如 果 检 测 到 载波 信号 ， 即 电缆 忙 ， 它 就 
继续 监听 电缆 直到 它 变 为 室 闲 位置 ; 否则 ， 它 等 待 一 个 很 小 的 时 际 后 就 开始 发 送 。 如 果 在 传输 过 程 中 
念 测 到 冲突 ，CSMAZCD 就 向 电 纱 发 送 阻 塞 信和 号， 中止 传输 ， 再 次 发 送 之 前 等 待 一 个 随机 后 退 时 间 。 
图 3-16 给 出 了 传输 流 和 随后 的 正确 流程 步 台 注意， 在 全 双 工 链 中 上 |， 载波 监 折 和 冲突 检测 实际 上 是 
不 存在 的 








-个 以 太 网 帧 可 以 携带 一 个 VIAN 标记 ， 当 我 们 在 3.5 节 中 介绍 VLAN 时 ， 我 们 可 了 解 该 由 的 格式 
以 太 网 传输 是 低位 数 顺序 进行 的 ， 这 在 陷阱 与 误导 中 做 过 港 清 
将 长 度 字 段 认 为 代表 帧 的 大 小 是 一 个 广泛 存在 的 误解 ， 这 种 观点 是 不 正确 的 . 帧 结束 的 标志 是 特殊 的 物理 编码 
或 无 信号 ， 以 太 网 MAC 可 以 很 容易 地 计算 出 它 已 经 接收 了 一 帧 中 的 多 少 字 节 
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| MAC 客户 端 (IP、LLC 等 ) 
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图 3-15 在 MAC 子 层 ， 帧 的 传输 和 接收 
































中 止 传输 


图 3-16 CSMAZCD 帧 传输 流 

1) MAC 客户 端 (IP、LLC 等 ) 请 求 传输 帧 。 

2) MAC 子 层 对 来 自 客 户 端 来 的 数据 前 附加 MAC 信息 (前导 符 、SFD、DA 、SA、 类 型 和 FCS)。 

3) 在 半 双 工 横 式 下 ，CSMAZCD 方法 侦 昕 载波 以 便 确定 传输 信道 是 否 忙 。 如 果 忙 ， 则 将 传输 推迟 
到 该 信道 空闲 为 止 

4) 等 竺 时 间 称 为 帧 闻 间 阶 (IFC)。 所 有 以 太 网 类 型 的 时 间 长 度 都 是 96 位 的 倍数 。 位 时 间 是 一 位 
传输 所 需 持 续 的 时 间 ， 即 位 速率 的 倒数 。IFG 留 给 接收 方 处 理 的 时 间 ， 例 如 用 于 到 达 帧 的 中 断 和 指针 
调整 

5) 开始 传送 帧 

6) 在 半 双 工 模 式 下 ， 如 果 在 帧 传输 过 程 中 发 生 冲 突 ， 则 发 送 方 应 继续 监控 。 监 控 方法 取决 于 连接 
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的 介质 类 型 。 在 某 个 同 轴 电 缆 上 的 多 个 数据 传输 会 导致 绝对 电压 高 于 正常 水 平 。 对 于 双 绞 线 ， 在 发 送 
帧 的 同时 在 接收 线 对 上 侦 听 接收 信号 就 可 以 断定 是 否 出 现 了 冲突 ，。 

7) 在 传输 过 程 中 没有 检测 到 冲突 的 情况 下 ， 帧 就 会 继续 传输 ， 直 到 传输 完成 为 止 。 如 果 在 半 双 工 
模式 下 检测 到 冲突 ， 就 进行 步骤 8) ~12)， 

8) 发 送 方 发 送 一 个 32 位 长 的 阻塞 信号 ， 以 确保 冲突 足够 长 的 时 间 而 让 所 有 站 点 都 知道 。 阻 寨 信 
忆 横 式 是 未 指定 的 。 稼 见 的 实现 方式 是 持续 大 于 32 位 的 数据 ， 或 者 使 用 产生 前 导 符 的 电路 传输 交 蔡 的 
1 和 0 组 合 。 

9) 中 止 当前 的 传输 ， 并 试图 按 计划 安排 再 次 传输 。 

10) 尝试 重 发 的 最 大 次 数 为 16， 如 果 仍 然 无 法 传输 ， 则 放弃 该 帧 

11) 在 尝试 重新 发 送 时 ， 回 退 时 间 间 隔 是 以 时 隙 为 单位 随机 地 从 0 ~2 -1 中 选择 一 个 数 ， 其 中 
=min (2，10) , 到 是 尝试 的 次 数 。 取 值 范 围 星 指数 增长 ， 所 以 称 为 截断 二 进 制 回 退 算法 。 对 于 10/ 
100Mbps 以 太 网 ， 时 辽 的 持续 时 间 是 521 位 时 间 ， 对 于 1Gbps 以 太 网 ， 则 为 4096 位 时 间 。 我 们 在 
3.3.3 节 中 讨论 千 兆 以 太 网 时 将 说 明 选 择 时 际 持续 时 间 的 原因 。 

12) 等 待 一 段 倒退 的 时 间 间 隔 ， 然 后 尝试 重新 发 送 。 

当 对 帧 长 度 〈 检 查 帧 是 否 太 长 或 太 短 ) 、 目 的 MAC 地 址 、FCS 以 及 传递 到 MAC 客户 端 之 前 的 十 进 
制 边 界 检查 完成 后 ， 帧 的 接收 会 容易 得 多 。 图 3-17 说 明了 接收 流 。 过 程 如 下 所 示 。 












合适 的 十 
进 制 边界 ? 


帧 太 短 ? ( 神 
突 分 段 ) 











图 3-17 CSMAZCD 的 帧 接收 流 
1) 接收 方 的 物理 层 检测 到 有 帧 到 达 。 
2) 接收 方 将 收 到 的 信号 进行 解码 并 将 数据 传递 到 MAC 子 层 ， 除 了 前 导 符 和 SFD 外 。 
3) 只 要 接收 信号 持续 ,接收 进程 就 会 继续 。 当 信号 中 止 时 ， 到 达 的 帧 就 截断 成 一 个 八进制 字 节 的 


4) 如 果 该 帧 太 短 (小 于 512 位 ) ， 它 就 会 被 视 为 冲突 分 段 并 被 丢弃 。 

5) 如 果 目 的 地 址 不 是 接收 方 ， 帧 也 将 被 丢弃 。 

6) 如 果 帧 太 长 ， 它 将 被 丢弃 ， 并 记录 错误 用 于 管理 统计 。 

7) 如 果 帧 有 一 个 不 正确 的 FCS， 它 也 将 被 丢弃 ， 并 记录 错误 。 

8) 如 果 帧 的 大 小 不 是 8 位 的 整数 倍 ， 它 将 被 丢弃 ， 并 记录 错误 。 

9) 如 果 一 切 正常 ， 帧 解 封装 并 将 该 字段 上 传 到 MAC 客户 端 。 

冲突 会 影响 性 能 吗 

术语 冲突 听 上 去 很 可 怕 ! 但 是 冲突 是 正常 CSMAZCD 仲裁 机 制 的 一 部 分 ， 而 不 是 系统 故障 的 结果 
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冲 罕 会 导致 错误 的 帧 ， 但 如 果 检 测 到 冲突 时 就 停止 传输 ， 情 况 也 许 并 不 是 很 糟糕 ， 在 进一步 分 析 因 冲 
突 所 造成 的 位 时 间 浪费 之 前 ， 我 们 先 问答 一 个 关键 问题 ， 冲 突 会 在 哪里 发 生 呢 ? 我 们 利用 图 3-18 中 的 
帧 传输 模型 回答 这 个 问题 。 


1 传输 一 个 最 小 帧 
可 以 在 /之 前 发 送 ， 
但 可 能 有 冲突 





入 传播 时 间 =7 B 


3 A 在 2 时 刻 
% 测 到 冲突 。 | 米 自 A 的 由 


| 一 一 一 一 半 突 城 范 轩 一 一 一 
来 自 B 的 帧 | 2 刚好 在 /之 前 传输 
原则 : 往返 时 间 2/ 小 于 传输 一 个 最 小 帧 的 时 间 
图 3-18 休 有 传播 延迟 的 冲突 检测 
假设 A 站 发 送 一 个 64 字 节 的 最 小 帧 ， 帧 的 第 一 位 到 达 B 站 之 前 的 传播 时 间 为 +， 即 使 有 具有 载波 侦 
上 听 ，B 站 也 很 可 能 在 上 时间 内 传输 帧 ， 央 此 会 造成 冲突 。 我 们 进一步 假设 一 种 最 坏 的 情况 ，B 站 正好 在 
1 时刻 发 送 ， 这 样 就 产生 了 冲突 。 冲 突然 后 经 历 了 男 一 个 1 后 传输 到 达 A 站 ， 如 果 A 站 在 往返 行程 时 间 
21 之 前 完成 最 小 帧 的 传输 ， 它 就 没有 机 会 启用 冲突 检测 并 安排 重 发 ， 这 样 帧 就 丢失 了 ， 为 了 使 CSMA/ 
CD 能 够 止 常 运行 ， 往 返 时 间 应 小 于 传输 最 小 帧 所 需要 的 时 间 ， 也 就 是 说 CSMAZCD 机 制 将 两 站 点 之 间 








的 距离 限制 在 冲突 域 中 .这 一 限制 使 得 半 双 工 千 兆 以 太 网 的 设计 更 加 复杂 ， 我 们 将 在 3. 3.3 节 介 绍 干 
兆 以 大 网 时 深入 讨论 这 个 问题 。 因为 最 小 帧 的 大 小 为 64 字 节 ， 这 也 意味 着 冲突 必须 发 生 在 距离 限制 的 
由 的 前 64 字 节 传输 期 间 。 如 果 发 送 了 大 于 64 字 节 的 帧 ， 那 么 由 于 载波 能 够 被 其 他 站 点 侦 听 和 到 ， 所 以 


处 可 以 根除 冲突 

如 果 我 们 将 32 位 阻塞 也 考虑 进来 ,那么 已 经 传输 的 帧 中 的 实际 位 数 加 二 阻塞 位 数 应 该 不 超过 511 
位 ， 正 如 在 步骤 4 中 所 述 的 帧 接收 流 ， 因 为 512 位 ( =64 字 节 ) 是 正常 帧 的 最 小 长 度 ， 其 他 情况 下 ， 
接收 方 会 认为 这 些 位 是 正常 的 帧 ， 而 不 是 一 个 碰撞 分 段 。 因此， 浪费 的 位 时 间 的 最 大 数量 是 511 + 64 
(来 自前 导 符 ) +96 (来 月 IFPC) =671。 这 只 是 一 个 大 帧 中 的 一 小 部 分 。 此 外 ， 我 们 必须 强调 这 是 在 
最 坏 的 情况 下 发 生 的 : 大 多 数 冲突 是 在 前 导 符 阶段 检测 到 的 ， 因 为 两 个 发 送 站 点 之 问 的 距离 并 不 远 
在 这 种 情况 下 ,浪费 的 位 时 间 只 有 64 (来 自前 导 符 ) +32 (来 自 阻 塞 ) +96 (来 自 IFG) =192 

最 大 帧 速率 

一 个 发 射 机 (接收 机 ) 在 一 秒 内 能 发 送 (接收 ) 多 少 个 帧 ”这 是 一 个 有 趣 的 问题 ， 尤 其 是 当 你 设 
计 或 分 析 数 据 包 处 理 设备 ( 如 交换 机 ) 时 ， 就 需要 得 出 设备 每 秒 需 要 处 理 多 少 帧 。 帆 的 传输 是 从 一 个 
7 学 节 的 前 导 符 和 1 字 节 的 SFD 开始 的 。 为 了 使 链 路 到 达 其 最 高 传输 速率 (以 每 秒 多 少 帧 为 单位 ) ， 所 
有 传输 的 帧 应 保持 最 小 ， 即 64 字 节 :不 要 忘 了 两 个 连续 传输 的 帧 之 间 还 有 12 字 节 (96 位 ) 的 IFC 
一 个 帆 传 输 总 共 占 用 (7+1+64+12) x8 =672 位 时 间 。 在 一 个 100Mbps 的 系统 中 ， 每 秒 可 传输 的 最 
大 帆 数 为 100 x 10"/672 = 148 800。 此 值 就 是 指 100Mbps 链 路 最 大 帧 速率 .如 果 一 台 交 换 机 有 48 个 接 
口 ， 那 么 聚合 的 最 大 帧 传输 速率 将 是 148 800 x48 =7 140 400， 即 超过 700 万 

全 双 工 MAC 

显 期 的 以 太 网 使 用 同 轴 电 缆 作 为 传输 介质 并 将 工作 站 连接 成 总 线 拓扑 结构 。 由 于 双 绞 线 易于 管理 ， 
所 以 在 大 多 数 情况 下 它 取 代 了 同 轴 电 缆 。 主流 的 方法 是 利用 双 绞 线 将 每 台 工 作 站 连接 到 集中 设备 (如 
集 线 带 或 交换 机 ) 构成 一 种 星 形 拓扑 结构 。 对 于 流行 的 10BASE-T 和 100BASE-TX， 双 绞 线 中 有 一 线 对 
入 用 于 用 户 发 送 或 接收 :一 如 此 一 来 就 能 在 接收 线 对 上 一 边 通过 侦 听 接收 到 的 信号 来 确定 碰撞 ， 一 边 在 
发 送 线 对 上 发送。 然而， 这 仍然 是 低 效 率 的 。 既 然 介质 专用 于 星 形 拓扑 结构 设置 中 的 点 到 点 通信 ， 那 





〇 ”在 1000BASE-T 中 ， 发 送 与 接收 成 对 同时 产生 ， 考 虑 到 复杂 的 DSP 电路 分 离 两 个 信号 的 成 本 ， 状 别 不 是 必需 的 
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么 为 什么 新 的 以 太 网 技术 还 要 使 用 冲突 作为 一 种 “仲裁 ”方法 呢 ? 

1997 年 ，IEEE 802. 3X 任务 组 在 以 太 网 中 添加 了 了 全 双 工 操作 ， 也 号 是 说 ， 发 送 和 接收 可 以 在 同一 
时 间 进 行 。 二 也 丁 相 ST 丰 再 丰 在 往 的 人 下 区 因为 已 经 不 再 需要 它们 了 一 一 在 一 条 专用 
线路 [不 存在 “多 路 访问 ”了 。 因 此 ，CS、MA 和 CD 都 不 见 了 。 有 趣 的 是 ， 这 对 以 太 网 的 设计 是 一 
个 戏剧 性 的 变化 ， 因 为 最 初 的 以 太 网 就 是 以 其 CSMAZCD 而 闻名 的 : 为 了 运行 全 双 工 以 太 网 ， 应 满足 
I :个 条 件 ; 

) 传输 介质 必须 能 够 在 西端 无 干扰 地 传输 和 接收 

传输 介质 应 仅 专 用 于 蝴 个 站 点 ， 形 成 点 到 点 链 路 。 

3) 两 个 站 点 应 该 都 能 配置 为 全 双 工 贷 式 

IEEE 802. 3 标准 明确 地 排除 了 集线器 运行 全 双 工 模式 的 可 能 性 ， 因 为 集 线 融 的 带 沉 是 共享 的 ， 而 
不 是 专用 的 。 全 双 工 传输 的 三 个 典型 案例 场景 分 别 是 站 点 we 站 点 =- 交换 机 和 交换 机 - 交换 
机 链 路 .在 任何 情况 下 ， 这 些 链 路 都 需要 专用 的 点 到 点 链 路 

全 双 工 以 太 网 在 效果 上 加 倍 了 两 站 点 之 间 的 宽带 。 它 还 放宽 了 由 于 使 用 CSMAZCD 所 导致 的 对 距 
离 的 限制 ， 这 对 高 速 和 广 域 传输 来 讲 非常 重要 ， 这 一 点 我 们 将 在 3.3.3 节 进 行 讨论 。 目前， 几乎 所 有 
的 以 太 网 接口 都 支持 全 双 工 模式 ， 通 信 妈 方 都 能 进行 自动 协商 ， 以 确定 是 否 双 方 部 支持 全 双 工 ， 如 果 
是 这 样 ， 为 了 更 高 的 效率 双方 都 将 运行 在 全 双 工 模式 下 。 

以 太 网 流量 控制 

以 太 网 中 的 流量 控制 取决 于 双 工 模式 。 半 双 工 模式 采用 一 种 称 为 假 载波 (false carrier) 的 技术 ， 
有 了 了 它 如 果 接 收 机 不 支持 更 多 传人 的 帧 时 ， 它 就 可 以 在 共享 媒体 上 传输 一 个 载波 ， 比 如 一 系列 1010… 
10， 直 到 它 能 够 承受 更 多 的 帧 为 止 。 发射 机 将 侦 听 载波 ， 并 推迟 其 随后 的 传输 。 此 外 ,拥塞 的 接收 机 
无 论 何 时 当 侦 听 到 帧 的 传输 时 都 可 以 强制 一 次 冲突 ， 导 致 发 送 方 回 退 并 重新 安排 它 的 传输 ， 这 种 技术 
称 为 强制 冲突 。 这 两 种 技术 统称 为 背 压 (back pressure ) 。 

然而 ， 在 全 双 工 借 式 下 青 床 是 无 效 的 ， 因 为 不 再 使 用 CSMAZCD。 IEEE 802. 3 在 爹 双 工 模式 下 指定 
了 一 个 暂停 PAUSE 帧 用 于 流量 控制 。 接 收 方 显 式 地 向 发 送 方 发 送 一 个 PAUSE 帆 ， 发 送 方 接收 到 
PAUSE 帧 后 就 立即 停止 发 送 ，PAUSE 帧 携带 一 个 字段 ，pause _ time， 告诉 发 送 方 应 该 停止 发 送 多 长 
时 间 。 由 于 不 容易 提前 估计 暂停 时 间 ， 所 以 在 实践 中 pause time 总 是 设置 为 最 大 值 来 停止 传输 ， 并 
当 接收 方 可 以 接收 更 多 的 帧 时 将 另 一 个 pause time =0 的 PAUSE 帧 发 送 到 发 送 方 以 便 恢 复发 送 方 的 
传输 ， 

在 以 太 网 中 ， 流 量 控制 是 可 选 的 。 它 可 以 由 用 户 或 通过 自动 肉 商 激活 。IEEE 802. 3 标准 提供 了 一 
种 介 于 MAC 和 LLC 之 间 的 可 选 子 层 . 即 MAC 控制 子 层 ， 它 定义 了 MAC 控制 帧 以 提供 MAC 子 层 运 行 
的 实时 操作 。PAUSE 帧 是 一 种 MAC 控制 帧 


开源 实现 3.5: CSMA/CD 

概述 

CSMAZCD 是 以 太 网 MAC 中 的 一 部 分 ， 大 部 分 以 太 网 MAC 是 在 硬件 中 实现 的 。 一 个 开源 以 太 网 的 
例子 可 以 从 OpenCore (www. yp a 获得 ， 其 中 提供 了 一 个 全 面 的 Verilog 代码 。 全面 的 意思 


是 Verilog 代码 是 完整 的 ， 可 以 通过 一 系列 的 工具 编译 成 电路 实现 。 它 提供 10Mbps 和 100Mbps 以 太 网 
的 IEEK 规范 的 第 2 层 协议 实现 
框图 


图 3-19 说 明了 OPENCORE Ethernet Core 的 体系 结构 ， 它 主要 由 主机 接口 、 发 送 (TX) 模块 、 接 
收 CRX) 模块 、MAC 控制 模块 、 独 立 于 介质 的 接口 管理 模块 (MIT) 所 构成 。 有 具体 描述 如 下 。 

1) TX 和 RX 模块 具有 所 有 的 发 送 和 接收 功能 。 这些 模 块 处 理 前 导 码 的 生成 和 清除 。 这 两 个 模块 为 
错误 检测 包含 了 CRC 产生 器 。 此 外 ，TX 模块 执行 用 于 倒退 处 理 的 随机 时 间 的 产生 以 及 Carrier Sense 
和 Collison 信号 以 实施 CSMA/CD 0 

2) MAC 控制 模块 提供 全 双 工 流量 控制 ， 它 在 通信 站 点 之 间 传 送 PAUSE 控制 帧 。 因 此 ，MAC 控制 


A 
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模块 支持 控制 帧 的 检测 和 产生 、 与 TX 和 RX MAC 的 接口 、 暂 停 PAUSE 定时 器 和 时 隙 定时 器 ， 

3) MII 管理 模块 实现 了 IEEE 802.3 MII 标准 ， 它 能 提供 以 太 网 物理 层 与 MAC 层 之 间 的 互联 。 通 

过 MII 接口 ， 处 天 中 可 并 入 刘 内 下 网 网 答 居 于 将 和 Obps 9 站 并 配置 它 执 行 全 双 工 或 半 双 工 
模式 。MII 管理 模块 具有 操作 控制 器 、 移 位 寄存 器 、 输 出 控制 模块 和 时 钟 产生 器 的 子 模块 

4) 主机 接口 是 一 种 WISHBONE (WB) 总 线 将 以 太 网 MAC 与 处 理 器 和 外 部 存储 器 连接 起 来 。WB 
是 OpenCore 项 目的 互 连 规范 ， 至 今 为 止 只 支持 DMA 传输 进行 数据 传送 。 主 机 接口 还 具有 状态 模块 和 
注册 模块 。 状 态 模块 记录 写 入 到 相关 缓冲 区 中 的 状态 。 寄 存 器 模块 用 于 以 太 网 MAC 操作 ， 它 包括 配置 
寄存 器 、DMA 操作 以 及 发 送 状 态 和 接收 状态 
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以 太 网 物理 层 (PHY) 


图 3-19 ”以太 网 MAC 核心 的 体系 结构 





数据 结构 和 算法 实现 
状态 机 : TX 和 RX 
在 TX 和 RX 模块 中 ，TX 和 RX 状态 机 分 别 控制 它们 各 自 的 行为 图 3-20 中 给 出 了 两 种 状态 机 
这 里 我 们 仅 描 述 TX 状态 机 的 行为 ， 因 为 RX 状态 机 的 工作 原理 与 其 类 似 。TX 状态 机 从 Defer (延迟 ) 
状态 开始 ， 等 待 直到 无 载波 (而 CarrierSense 信号 为 假 )， 然 后 进入 IFG 状态 。 进 入 帧 间 间 隔 后 
(IFG) ，TX 状态 机 进入 Idle (空闲 ) 状态 ， 等 待 来 自 WB 接口 的 传输 请 求 。 如 果 仍然 没有 载波 ， 状 
态 机 就 进入 Ereamble (前 导 符 ) 状态 并 启动 传输 ; 否则 ， 它 回 到 Defer 状态 ， 并 等 待 再 次 出 现 无 载 
波 。 在 Preamble 状态 中 ,发 送 前 导 符 0x5555555 和 起 始 帧 定 界 符 0xd， 并 且 TX 状态 机 到 达 Data 
[0] 和 Data [1] 状态 以 发 送 半 位 元 组 nibbles， 即 以 4 位 为 半 位 的 数据 字 节 。 单 位 元 组 传输 是 从 最 
低 有 效 字 节 (LSB) 开始 直到 帧 结束 为 止 ， 每 次 发 送 一 帧 ，TX 状态 机 告诉 Wishbone 接口 提供 下 一 个 将 
要 传输 的 数据 字 节 。 
e .如果 在 传输 过 程 中 发 生 了 冲突 ，TX 状态 机 就 进入 Jam (阻塞 ) 状态 以 发 送 一 个 拥塞 信号 ， 等 待 
Backoff ( 回 退 ) 状态 中 的 一 段 回 退 时 间 ， 然 后 又 回 到 Defer 状态 重新 尝试 传输 。 
。 当 仅 剩 下 一 字 节 需要 发 送 (在 传输 过 程 中 没有 发 生 冲突 ) 时 ， 
1) 如 果 总 的 帧 长 度 大 于 或 等 于 最 小 帧 长 度 ， 那 么 TX 状态 机 就 进入 FCS 状态 以 便 计 算数 据 
的 32 位 CRC 值 ， 如 果 启 用 CRC 就 将 该 值 附加 到 帧 结尾 ， 然 后 就 进入 TxDone (TX 完成 ) 状 
态 ; 否则 ，TX 状态 机 直接 进入 TxDone 状态 。 
2) 如 果 帧 的 长 度 比 最 小 帧 长 度 短 且 启用 了 填充 ， 那 么 TX 状态 机 进入 PAD 状态 ， 数 据 部 分 
填充 零 直 到 满足 最 小 帧 长 度 条 件 为 止 (1)-。 其 余 的 状态 与 1) 中 所 述 相同 。 但 是 ， 当 禁用 填充 
时 会 跳 过 PAD 状态 
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图 3-20 TX (上面 ) 和 RX (下 而 ) 状态 机 

编程 CSMA/CD 信号 和 半 位 元 组 传输 

图 3-21 是 一 个 编程 实现 关键 CSMA/CD 信号 和 半 位 元 组 传输 的 Verilog 代码 段 。 输 出 信号 是 各 种 输 
入 信号 的 一 种 算术 组 合 ， 每 个 时 钟 周 期 会 更 新 一 次 。 所 有 输出 信号 也 并 行 更 新 ， 这 是 与 顺序 执行 的 软 
件 代码 之 间 的 重要 区 别 。 符 号 ~、 区 、| 、“ 和 = 分 别 表示 运算 “ 非 “与 “或 ”、“ 异 或 ”和 “ 赋 
值 ” 。 条 件 表达 式 “exp1? exp2: exp3” 与 C 语言 具有 完全 相同 的 含义 〔( 即 ， 如 果 expl 的 结果 为 真 ， 
取 exp2 值 ; 否则 ， 取 exp3 值 ) 

工作 在 半 双 工 模式 下 的 站 点 会 观察 PHY 物理 媒体 上 的 活动 。 除了 由 于 传输 帧 的 载波 外 ， 也 能 观察 
到 来 自 多 个 站 点 同时 传输 产生 的 冲突 (由 Collision 变量 指示 )， 如 果 发 生 冲 突 ， 所 有 站 点 停止 传 
给 ， 设 置 StartJam (进入 Jam 状态 ) 并 在 Backoff 状态 随机 地 回 退 一 个 随机 时 间 (设置 Start- 
BackOffE) 。 如 果 载 波 处 在 Jam 状态 或 Backoff 状态 ， 状 态 机 就 回 到 Defer 状态 

在 “ 半 位 元 组 传输 ”下 的 代码 ， 根 据 TX 机 器 所 在 的 状态 ， 选 择 将 要 传输 的 半 位 元 组 (4 位 )。 在 
低 字 节 (little-endian) 传输 期 间 TX 状态 机 在 Data [0] 和 Data [1] 状态 之 间 切 换 ， 因 此 MTxD d， 
发 送 数 据 半 位 元 组 ， 交 替 地 装载 在 TXDRTA [3:0] 和 TXDATA [7:4] 中 。 在 FCS 状态 中 ，CRC 值 是 
逐个 半 位 元 组 (nibble) 装载 的 ， 就 像 使 用 crc 移 位 寄存 器 实现 的 CRC 计算 一 样 。 在 Jam 状态 下 ， 加 


载 任意 的 十 六 进 制 值 1001 ( 即 4'h9) 作为 阻塞 信号 ， 尽 管 阻塞 信号 的 内 容 在 802.3 标准 中 没有 指定 
在 Preamble 状态 下 ,前导 符 0x5555555 和 起 始 帧 分 隔 符 〔 定 界 符 ) 0xd 依次 装载 。 
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CSMA/CD Signals - 
lassign StartDefer = StateIFG & ~Rulel & CarrierSense & NibCnt[6:0] 
<= IPGR1 & Nibcnt[6:0] != IPGR2 
| StateIdle & CarrierSense 
| stateJam & NibCntEq7 & (NoBckof | RandomEd0 | ~ColWwindow | 
RetryMax) 
| StateBackOff & (TxUnderRun | RandomEqByteCnt) 
| StartTxDone | TooBig; 
assign StartDefer = StateIdle & ~TxStartFrm & CarrierSense 
| StateBackOff & (TxUnderRun | RandomEqByteCnt); 


assign StartDatall] = ~Collision & StateData[0] & ~TxUnderRun & 
~MaxFrame; 
lassign StartJam = (Collision | UnderRun) & ((StatePreamble 


& NibCntEql5) 

|(StateData[1:0]) | StatePAD | StateFCs); 
lassign StartBackoff = StateJam & ~RandomEq0 & ColWindow & 
~RetryMax & NibCntEq7 & ~NoBckof; 


Nibble transmission 

always @ (StatePreamble or StateData or StateData or StateFCS or 
StateJam or StateSFD or TxData or Crc or NibCnt or NibCntEdl15 
begin 

if (StateData[0]) MTxD Q[3:0] = TxData{[3:0]; // Lower nibble 
else if(StateDatal[l1]) MTxD d[3:0] = TxDatal[7:4]; // Higher nibble 
else if (StateFCs) MTxD d[3:0]={~Crc[28] ;~Crc{[29] ,~Crc[30], 
“Gretai] }s // Gre 








lelse if (StateJam) MTxD dl[3:0] = 4'h9; // Jam pattern 
else if (StatePpreamble) 
if (NibCntEq15) MTxD d[3:0] = 4'hd; /7 SFD 
|else MTxD dG[3:0] = 4‘hs; // Preamble 
else MTxD d[3:0] = 4‘h0; 
lend 





图 3-21 CSMAZCD 信号 和 半 位 元 组 (nibble) 传输 
由 于 TX 模块 一 旦 检测 到 冲突 后 就 开始 回 退 过 程 ， 并 等 待 一 段 从 伪 随 机 信号 导出 的 持续 时 间 ， 如 
图 3-22 所 示 。 应 用 “二 进 制 指数 ”算法 生成 一 个 在 预定 义 限制 内 的 随机 回 退 时 间 。 数 组 x 中 的 x [ii] 
元 素 是 一 个 取 值 为 0 或 1 的 随机 位 值 ， 数 组 x 可 以 看 做 二 进 制 的 10 位 随机 值 的 表示 (总共 10 位 ， 作 为 
一 系列 0-~2 一 1 的 随机 数 ， 这 里 k=min (n, 10), 而 n 则 是 重 试 次 数 )， 根 据 图 3-22 中 的 每 条 语句， 





lassign Random [0] = x[0]; 
assign Random [1] = (RetryCnt > 1) ? x[1l] : 1’b0; 
assign Random [2] = (RetryCnt > 2) ? x[2] : 1'b0; 
assign Random [3] = (RetryCnt > 3) ? x[3] : 1’b0; 
assign Random [4] = (RetryCnt > 4) ? x[4] : 1’‘b0; 
assign Random [5] = (RetryCnt > 5) ? x[5] : 1'b0; 
assign Random [6] = (RetryCnt > 6) ? x[6] : 1'b0; 
assign Random [7] = (RetryCnt > 7) ? x[7] : 1’b0; 
assign Random [8] = (RetryCnt > 8) ? x[8] : 1'b0; 
assign Random [9] = (RetryCnt > 9) ? x[9] : 1’b0; 
always @ (posedge MTxClk or posedge Reset) 
begin 
if(Reset) 
RandomLatched <= 10’h000; 
else 
begin 
if(StateJam & StateJam gq) 
RandomLatched <= Random; 

end 
end 
assign RandomEq0 = RandomLatched == 10’'ho0; 











图 3-22 回 退 随 机 产生 器 
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当 RetryCnt 大 于 评 时 ,如 果 x [i] =1 则 Random [i] =1; 否则 ，Random [i] =0， 换 和 句 话 
说 ， 当 RetryCnt 加 1 时 ,在 随机 值 中 更 多 高 位 很 可 能 被 设置 为 1!， 这 就 意味 着 随机 数 的 范围 值 以 重 
试 次 数 指数 地 增长 ”得 出 随机 值 之 后 ， 如 果 传 输 信 道 由 于 冲突 而 被 阻塞 (从 State Jam 和 State 
Jam q 变量 进行 判断 )， 它 设置 RandomLatched 变量 。 如 果 随 机 值 刚 好 为 0 ( 即 后 退 时 间 为 0)， 则 
设置 RandomEq0 变量 并 且 倒 退 过 程 也 不 会 启动 (在 图 3-21 中 的 最 后 一 个 赋值 语句 Start Backoff 
为 假 ) 

练习 

1. 如 果 以 太 网 MAC 以 全 双 工 模式 运行 (目前 很 常见 ) ， 那 么 设计 中 的 哪 种 组 件 应 该 禁止 ? 

2. 由 于 全 双 工 模式 比 半 双 工 模式 具有 更 加 简单 的 设计 ， 前 者 的 效率 也 比 后 者 高 ， 那 么 为 什么 还 要 
在 以 太 网 MAC 中 实现 半 双 工 模式 ? 


历史 演变 : 电力 线路 网 络 互联 : HomePlug 

以 太 网 是 局 域 网 中 占据 主导 的 技术 ， 但 是 它 需 要 为 有 线 连接 从 一 个 节点 到 另外 一 个 节点 布置 网 络 
电缆 。 尽管 无 线 局 域 网 可 以 完全 去 掉 电 缆 ， 但 无 线 信 号 容易 受到 各 种 干扰 并 且 不 稳定 。 介 于 前 两 者 技 
术 之 间 的 一 种 不 很 流行 的 但 有 用 的 解决 方案 就 是 HomePlug， 它 能 够 利用 电力 线路 传输 数据 。 以太 网 电 
缆 可 以 挂 接 到 电力 线路 适配器 上 ， 然 后 插入 到 电源 插座 上 .其 他 设备 也 可 以 同样 的 方式 实现 连接 ， 数 
据 就 能 通过 电力 线路 基础 设施 来 传输 。 基础 设施 在 普通 家 庭 都 能 提供 ， 因 此 在 两 个 电源 插座 之 间 就 不 
需要 额外 的 线路 连接 

HomePlug 依赖 于 OFDM 调制 才能 通过 电力 线路 ，HomePlug 1.0 以 半 双 工 模 式 允 许 速 度 高 达 
14Mbit/s。 专 用 解决 方案 在 turbo 模式 允许 高 达 85Mbps 的 速率 ， 后 来 的 最 新 规范 将 速度 提升 到 
189Mbps。 该 解决 方案 是 家 庭 和 办 公 室 线路 布置 的 一 种 便宜 的 可 选 方式 
3.3.3 以 太 网 的 精 选 主题 

千 兆 以 太 网 

为 千 兆 以 太 网 创建 规范 的 任务 库 本 分 为 两 个 工作 组 : 802. 3z 和 803.3ab。 后 来 的 以 太 网 工作 组 ， 
在 第 一 公里 (EFM) 也 指定 了 三 个 新 的 运行 在 千 兆 速率 的 PHY。， 为 清楚 起 见 ， 我 们 将 后 一 部 分 的 讨论 
留 到 EFM 中 。 表 3-4 仅 列 出 了 在 802.3z 和 803.3ab 中 的 规范 

表 3-4 和 干 睁 以 太 网 的 物理 规范 























工 作 组 规范 名 字 描 述 
1000BASE-CX 使用 8BZ108 编码 的 25m 两 对 屏 严 双 绞 线 (STP) 
IEEE 802. 3z (1998) 1000BASE-SX 使 用 8BZ10B 编码 的 短波 激光 多 模 光 纤 
1000BASE-LX | 使 用 8BZ10B 编码 的 长 波 激 光 多 模 或 单 模 光纤 
IEEE 802. 3ab ( 1999) 1000BASE-T | 使 用 8B1Q4 的 100m 四 对 5 类 (或 更 好 ) 非 屏蔽 双 绞 线 (UTP) 


和 干 兆 以 太 网 设计 的 一 个 难点 在 于 CSMAZCD 的 距离 限制 ， 这 对 于 10Mbps 和 100Mbps 以 太 网 不 存在 
问题 .在 100Mbps 以 大 网 中 ， 铜 线 连 接 距离 大 约 是 200m， 对 普通 的 配置 已 经 足够 了 。 该 距离 其 至 要 比 
10Mbps 以 太 网 的 更 长 。 但 是 ， 千 兆 以 太 网 传输 比 100Mbps 以 太 网 快 10 倍 ， 而 距离 限制 则 缩减 为 1Z10 
对 于 许多 网 络 部 团 ， 大 约 20m 的 限制 是 不 能 接受 的 ， 千 兆 以 太 网 的 目标 之 一 就 是 在 帧 格式 不 变 ( 即 最 
小 帧 大 小 ) 的 情况 下 放宽 距离 上 | 的 限制 

IEEE 802. 3 标准 在 帧 之 后 追加 一 系列 扩展 位 以 确保 帧 传输 时 间 超 过 往返 时 间 。 这 些 位 可 以 是 物理 
层 的 任何 非 数据 符号 。 这 种 技术 称 为 载波 扩展 ， 在 不 改变 最 小 帧 大 小 的 情况 下 扩展 帧 的 长 度 ， 然 而 ， 
最 终 的 在 吐 量 很 差 .尽管 技术 的 初 囊 是 好 的 。 相 反 ， 全 双 工 以 太 网 并 不 需要 CSMA/CD， 使 得 这 一 解决 
方案 成 为 不 必要 的 。 全 双 工 以 太 网 的 实施 比 半 双 荆 以 太 网 简单 得 多 .和 研 吐 量 更 高 ， 而 且 距 离 上 的 限制 
也 不 成 问题 。 如 果 它 是 不 必要 的 ， 那 么 为 什么 我 们 还 要 费心 实施 半 双 工 千 兆 以 太 网 ” 千 兆 以 太 网 交换 
机 可 支持 全 双 工 ， 它 们 利用 先进 的 ASIC 技术 来 实现 交换 功能 结果 比 以 往 任 何 时 候 都 更 便宜 。 对 于 千 兆 
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以 太 网 的 部 署 ， 主 要 考虑 性 能 而 不 是 成 本 。 半 双 工 千 兆 以 太 网 已 经 证 明 在 市 场 上 是 失败 的 ， 因 为 目前 
市 场 上 上 仅 存在 全 双 工 二 上 焰 以 太 网 产品 

万 兆 以 太 网 

就 像 摩尔 定律 那样 ， 每 18 个 月 微 处 理 器 的 处 理 速度 增加 一 倍 ， 以 太 网 的 速度 在 初期 也 以 指数 级 增 
长 .万 兆 以 太 网 标准 由 2002 年 成 立 的 下 EE 802. 3ae 工作 组 负责 。 后 来 于 2006 年 扩展 到 运行 于 


全 双 工 : IEEE 802. 3 开发 人 员 吸取 了 千 兆 以 太 网 发 展 的 教训 ， 在 万 兆 以 太 网 中 只 有 全 双 工 模式 ， 
根本 不 考虑 半 双 工 模式 

与 以 往 标 准 兼 容 : 帧 格式 和 MAC 操作 保持 不 变 ， 使 得 与 现 有 产品 的 互 操作 性 也 比较 容易 实现 

走向 广域网 市 场 : 既然 千 兆 以 太 网 已 经 走向 城 域 网 市 场 ， 万 兆 以 太 网 还 将 进一步 进入 广域网 市 场 。 
一 方面 ， 在 新 标准 中 最 长 的 传输 距离 是 40km; 另 一 方面 ， 定 义 了 广域网 PHY 与 同步 光纤 网 络 (50- 
NET) 基础 设施 中 的 0C-192 (OC， 光 载波 ) 的 接口 ， 其 运行 速度 非常 接近 万 兆 位 。 在 IEEE 802. 3ae 
标准 中 ,除了 具有 LAN PHY 外 ， 还 带 有 一 个 可 选 的 WAN PHY_ 两 个 PHY 具有 相同 的 传输 介质 ， 因 此 
具有 相同 的 传输 距离 。 不同 的 是 ，WAN PHY 在 物理 编码 子 层 (PCS) 中 有 一 个 广域网 接口 子 层 
(WIS)。WIS 是 一 个 成 帧 器 ， 能 将 以 大 网 帧 映射 成 一 个 SONET 有 效 载荷 ， 从 而 简化 了 以 太 网 连接 到 
0C-192 设备 的 任务 

表 3-5 列 出 了 1TEEE 802. ae 中 的 物理 规范 。 在 编号 名 中 的 字符 “W” 表 示 它 是 可 以 直接 连接 到 0C- 
192 接口 的 WAN PHY。 其 他 则 仅 用 于 局 域 网 .。 除了 10CBASE-LX4 外 ， 其 他 物理 规范 都 使 用 复杂 的 
64B/66B 分 组 编码 。10GBASE-LX4 使 用 8BZI0B 分 组 编码 ， 并 依赖 4 个 波 分 复 用 (WDM) 信道 来 实现 
10Gbps 的 传输 速率 。 除 了 IEEE 802. 3ae 中 首 批 万 兆 位 规范 外 ,以 后 的 规范 ( 如 10GBASECX4、 
10GBASE-T) 甚至 还 允许 在 铜 线 上 以 10Gbps 传输 。 自 2008 年 以 来 ，10Gbps 以 太 网 无 源 光 网 络 
(EPON) 扩展 也 在 开发 之 中 





表 3-5 IEEE 802. 3ae 中 的 物理 规范 














编号 名 字 波 长 传输 距离 (mm) 编号 名 字 波 长 传输 距离 (m) 
I0CBASE-LX4 1310nm 300 | iocBAsE-SW 850nm 300 
IOCBASE-SR | 850nm 300 10GBASE-LW 1310nm 10 000 
10CBASE_LR 1310nm 10 000 10GBASE-EW 1550nm 40 000 
10CBASE-ER 1550nm 10 000 




















历史 演变 : 骨干 网 络 : SONET/SDH 和 MPLS 

SONET 和 SDH 是 通过 光纤 的 多 路 复 用 协议 。SONET 代表 同步 光 网 络 ， 而 SDH 代表 同步 数字 系列 ， 
前 者 用 于 美国 和 加 拿 大 ， 而 后 者 用 于 世界 其 他 地 区 。 SONET 载波 等 级 用 0C-x 来 指示 ， 线 路 速率 是 大 
约 为 51.8"xMbps。 因 此 ，0C-3 线路 速率 大 约 为 155Mbps， 而 0C-12 大 约 为 622Mbps， 以 此 类 推 。 高 速 
SONET/SDH， 如 大 约 10Gbps 的 0C-192， 通常 部 署 在 骨干 网 上 . 

由 于 SONET/SDH 的 大 型 基础 设施 ,很 难 很 快 地 用 以 太 网 进行 取代 。 这 就 是 为 什么 万 兆 以 太 网 需 
要 支持 所 谓 的 广域网 PHY 的 原因 ， 因 为 它 可 以 直接 连接 到 0C-192 接口 上 。 因 此 ， 让 万 兆 以 太 网 与 现 
有 SONET/SDH 基础 设施 共存 是 可 行 的 。 

为 了 在 如 此 高 速 的 网 络 转 发 数据 包 ， 多 协议 标签 交换 (MPLS) 允许 边缘 路 由 器 利用 标签 来 标记 数 
据 包 ， 核 心路 由 器 仅 检 查 标签 就 可 以 转发 数据 包 。 这 种 机 制 比 普通 路 由 器 使 用 的 昂贵 IP 最 长 前 级 匹配 
快 得 多 ， 这 一 点 我 们 将 在 第 4 章 中 看 到 。 

第 一 公里 以 太 网 

我 们 看 到 以 太 网 在 有 线 局 域 网 中 占据 主导 地 位 ， 并 期 待 它 有 期 一 日 能 接管 广域网 ， 但 局 域 网 和 广 
域 网 之 间 如 何 接口 呢 ? 即使 局 域 网 和 广域网 上 有 丰富 的 带宽 ， 但 你 可 能 仍然 在 家 里 通过 ADSL、 电 缆 调 
制 解 调 天 等 访问 互联 网 。 局 域 网 和 广域网 之 间 的 用 户 接 和 人 网络 的 网 段 ， 也 称 为 “第 一 公里 ”或 “最 后 
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一 公里 ”， 有 可 能 成 为 端 到 端 连接 的 瓶颈 ， 由 于 在 局 域 网 第 一 公里 和 广域网 中 使 用 不 同 技术 导致 的 协议 
转换 ， 从 页 导致 了 不 可 忽视 的 开销 。 随 着 越 来 越 多 的 用 户 接 入 网 络 ， 这 种 潜在 的 市 场 已 经 引起 以 太 网 
开发 者 的 高 度 关注 

IEEE 802. 3ah 以 太 网 第 一 公里 (EFM) 工作 组 努力 为 这 种 市 场 需求 定义 了 一 个 标准 。 如 果 以 太 网 
在 有 线 网 络 中 无 处 不 在 ， 那 么 就 不 需要 进行 协议 转换 ， 这 也 将 减少 整体 开销 。 总 之 ， 该 标准 预计 将 为 
潜在 的 、 广阔 的 第 一 公里 市 场 提供 廉价 和 更 快 的 技术 。 以 太 网 有 望 成 为 无 处 不 在 的 ， 标 准 的 目标 包括 
以 下 内 容 

新 的 拓扑 结构 : 用 户 接 入 网 络 的 需求 包括 点 到 点 光纤 、 单 点 到 多 点 光纤 和 点 到 点 铜 导线 。 标 淮 应 
符合 以 下 要 求 。 

新 的 PHY: 表 3-6 总 结 了 在 IEEE 802. 3ah 标准 中 的 PHY， 包 括 如 下 规范 。 

表 3-6 IEEE 802. 3ah 中 的 物理 规范 





























编号 名 字 描 述 
~ 100BASE-LXIO 在 一 对 光纤 上 以 100Mbps 传输 10km 以 1 
100BASE-BX10 在 一 根 光 纤 上 以 100Mbps 传输 10km 以 上 I 

1000BASE-LXI10 | 在 一 对 光纤 上 以 1000Mbps 传输 10km 以 上 
‘1000BASE-BXIO 在 一 根 光纤 上 :以 1000Mbps 传输 10km 以 上 
1000BASE-PX10 | “在 无 光源 光纤 网 络 上 以 1000Mbps 传输 10km 以 上 

加 1000B ASE-PX20 | 在 无 光源 光纤 网 络 上 上 以 1000Mbps 传输 20km 以 上 
2BASE-TL 至 少 以 2Mbps 经 过 SHDSL 传输 2700m 以 上 
10PASS-TS 至 少 10Mbps 经 过 VDSL 传输 750m 以 上 


点 到 点 光纤 : 物理 层 是 从 一 点 到 男 外 一 点 的 单 模 光纤 。 它 们 包括 100BASE-LX10、100BASE-BX10、 
1000BASE-LX10、1000BASE-BX10， 其 中 LX 表示 一 对 光纤 而 BX 表示 单 根 光纤 。 这 里 ，10 指 的 是 传输 
距离 为 10km， 比 IEEE 802. 3z 千 兆 以 太 网 的 最 大 距离 5km 还 长 

单 点 到 多 点 光纤 : 在 这 种 拓扑 结构 中 ， 单 点 服务 用 于 多 个 边界 ， 其 中 之 一 是 无 源 光 分 路 器 ， 因 此 
这 样 的 拓扑 结构 也 称 为 无 源 光 纤 网 络 (PON)，PHY 包括 1000BASE-PX10 和 1000BASE-PX20， 前 者 
可 以 传输 10km， 而 后 者 可 以 传输 20km 以 上。 男 一 个 努力 是 将 以 太 网 PON 推 至 高 达 10Gbps 的 传输 
率 也 正在 IEEE 802. 3av 标准 中 制定 。Zheng 与 Mouftah 于 2005 年 对 以 太 网 PON 介质 访问 控制 进行 了 
总 结 

点 对 点 铜 导 线 : 物理 层 使 用 非 负 载 、 谤 音 级 铜 电缆 。 物 理 层 包 括 2BASE-TL 和 10PASS-TS。 前 者 至 
少 以 2Mbps 通过 SHDSL 传输 高 达 2700m， 市 后 者 至 少 以 10Mbps 经 过 VDSL 传输 高 达 750m。 如 果 不 能 

提供 光纤 时 ， 它 们 就 是 更 经 济 的 解决 方案 

远 端 操作 、 管 理 和 维护 (OAM) : 可 靠 性 对 用 户 接 入 网 络 很 关键 。 为 了 方便 OAM， 标 准 为 远程 故 
障 指 示 、 远 端 回环 和 链 路 监测 定义 了 新 的 方法 


历史 演变 : 第 一 公里 网 络 互联 : xDSL 和 电缆 调制 解 调 器 

各 种 数字 用 户 线 (DSL) 技术 能 够 在 pi 由 于 电话 线 无 处 不 在 ， 所 以 DSL 技 
术 当 然 也 就 很 受 欢迎 。 在 xDSL 中 的 字母 “x” 指 的 是 在 DSL 技术 中 的 类 型 ， 包 括 ADSL 表示 非 对 称 
DSL、vDSL 表示 超 高 速 DSL、 EL 十 适 起 二 DSL 等 。 由 于 xDSL 的 普及 ， 即 使 EFM 中 的 点 到 点 
铜 线 缆 也 在 其 物理 层 中 利用 SHDSL 和 VDSL 技术 ， 而 在 链 路 层 中 保留 以 大 网 帧 。 

在 DSL 技术 的 类 型 中 ，ADSL 是 最 流行 的 一 种 。ADSL 为 上 行 和 下 行 提 供 不 同 速 度 。 下 行 速度 高 达 
24Mbps， 上 行 速度 最 高 可 达 3.5Mbps， 具 体 取决 于 ADSL 调制 解 调 器 与 本 地 电话 局 的 距离 而 可 光纤 
入 户 (FTTH) 的 成 本 很 高 ， 所 以 vDSL 对 于 光纤 到 楼 栋 (FTTB) 应 用 也 是 很 受 欢迎 的 。 光纤 可 以 到 达 
离 家 最 近 的 街道 配 电 柜 ， 从 这 里 开始 就 可 以 部 署 vDSL。 由 于 铜 线 的 应 用 距离 短 ， 所 以 速度 可 以 非常 
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快 ， 最 新 的 vDSL2 标准 可 高 达 100Mbps， 

与 通过 电话 线 传输 数据 的 xDSL 相 比 ， 电 缆 调 制 解 调 器 是 基于 通过 电缆 服务 接口 规范 (DOCSIS ) 
传输 数据 ， 这 是 有 关 有 线 电 视 系统 数据 传输 的 标准 规定 ， 上 行 和 下 行 的 吞吐 量 大 约 是 30 ~40Mbps。 虽 
然 由 于 其 传输 介质 是 有 线 电视 电缆 ， 所 以 电缆 调制 解 调 器 有 更 大 的 总 体 带 宽 和 更 远 的 传输 距离 ， 但 带 
宽 是 在 有 线 电 视 订 户 之 间 共 享 的 ， 相 比 之 下 ，xDSL 用 户 在 最 后 一 公里 接 入 网 络 具有 专用 的 带宽 .目前 
两 者 是 仍然 处 于 竞争 之 中 的 技术 


3.4 无 线 链 路 

无 线 链 路 非常 具有 咀 引 力 ， 因 为 用 户 可 以 不 受 导 线 的 距离 限制 ， 而 这 可 能 是 由 于 导线 部 署 不 方便 
或 很 昂贵 所 造成 的 ， 然 而 ， 无 线 链 路 与 有 线 链 路 的 功能 特点 不 同 ， 对 协议 设计 有 着 特殊 的 需求 。 我们 
将 这 些 特点 列 出 如 下 

不 可 靠 : 信号 在 空气 中 传播 ， 没有 任何 保护 ， 使 得 传输 容易 受到 和 干扰、 路 径 损耗 或 多 径 失 真 的 损 
害 ， 外 界 十 扰 是 来 自 附 近 的 无 线 信号 源 。 微波 炉 和 蓝牙 设备 对 于 无 线 链 路 就 是 可 能 的 噪声 源 ， 因 为 它 
们 部 工作 在 免 许 可 证 的 ISM (工业 、 科 学 和 医疗 ) 频段 ， 路 径 损 耗 是 信号 在 空气 中 传播 时 经 历 的 衰减 
衰减 比 有 线 中 的 更 严重 ， 国 为 信号 散布 到 空中 ， 市 不 是 集中 在 有 线 链 路 上 。 多 径 失 真 来 魏 信 号 的 延迟 
部 分 ， 因 为 它们 从 障碍 物 上 反射 从 而 通过 不 同 的 路 径 到 达 接 收 硕 。 

更 具 移 动 性 : 因为 没有 线路 限制 站 点 的 移动 性 ， 所 以 无 线 网 络 的 网 络 拓扑 结构 可 能 会 动态 地 变化 
请 注意 移动 和 无 线 是 不 同 的 概念 ， 虽然 它们 常常 相提并论 。 无 线 并 非 是 移动 所 必需 的 。 例 如 ， 一 个 移 
动 站 点 可 以 携带 人 到 基 个 位 置 ， 然 后 再 插入 有 线 网 络 上 。 移动 性 也 不 是 无 线 所 必需 的 。 例如 ， 丙 个 高 层 
建筑 物 可 以 利用 固定 无 线 中 继 设 备 进行 通信 ， 因 为 它们 之 间 的 布线 太 贵 了 ， 这 个 例子 是 网 络 部 署 中 很 
常见 的 

更 少 的 电能 可 用 性 : 移动 站 点 通 笛 由 电池 供电 ,它们 有 时 可 能 会 进入 睡眠 模式 以 节省 电能 。 如 末 
接收 机 处 在 睡眠 模式 下， 发 射 带 将 缓冲 数据 直到 接收 费 被 唤醒 接收 数据 为 止 ; 

更 少 的 安全 性 ; 传输 范 肝 内 的 所 有 站 点 都 可 以 很 容易 地 宵 听 在 空中 传播 的 数据 ,可 选 的 加 密 和 认 
证 机 制 可 以 保证 数据 的 安全 不 受 来 自 外 部 的 威胁 ， 

在 本 节 中 ,我们 选择 [EEFE 802. 11 无 线 局 域 网 、 蓝牙 和 WiMAX 作为 例子 来 介绍 无 线 链 路 .我 们 选 
择 这 二 者， 因为 IEREE 802. 11 毫 无 疑问 在 无 线 局 域 网 中 十 据 着 主导 地 位 ， 蓝 牙 主 宰 着 无 线 个 域 网 ， 
WiMAX 将 成 为 最 流行 的 城 域 网 ， 因 为 它们 有 具有 的 优势 和 重要 性 ， 所 以 它们 可 以 代表 无 线 链 路 技术 


3.4.1 IEEE 802. 11 无线 局 域 网 


无 线 局 域 网 ( WLAN) 的 演变 

IEEE 802. 11 工作 组 成 立 于 1990 年 ， 为 无 线 局 域 网 制定 了 MAC 和 PHY 规范 。 由 于 开发 过 程 花费 
三 太 长 时 间 ， 以 至 于 标准 的 第 1 版 直到 1997 年 才 出 现 。 起初 , 有 3 种 PHY， 即 红外 线 、 直 接 序 列 扩 频 
技术 (DSSS) 和 跳 频 扩 频 (FHSS)， 规 定 以 1Mbps 和 2Mbps 的 速度 传输 。 扩 频 技 术 的 目的 是 使 信号 在 
受到 干扰 时 更 加 健壮 。1999 年 提出 了 两 项 修正 案 ， 分 别 是 802. 11a 和 802. 11b。IEEE 802. 11 将 DSSS 
系统 扩展 到 更 高 的 数据 传输 速率 ， 分别 为 5.5Mbps 和 11Mbps。IEEE 802. 11a 指定 了 新 的 工作 在 5GHz 
频段 的 正 交 频 分 多 路 复 用 (OFDM) ， 而 不 是 以 前 标准 所 用 的 2.4CHz 频段 .数据 传输 速率 显著 增加 到 
54Mbps。， 然 而 ， 这 两 个 标准 互 不 阅 容 运行 在 11Mbps 的 IEEE 802. 115 产品 已 经 在 市 场 上 流行 起 来 
使 用 OFDM 的 802. 11g 标准 也 运行 在 54Mbps， 并 通过 使 用 其 调制 技术 向 后 兼容 802. 11b, IEEE 802. 11n 
标准 ,使 用 MIMO-OFDM， 能 够 工作 在 高 达 300Mbps 的 速率 。 带 有 多 个 发 时 器 与 接收 机 的 OFDM 参见 
第 2 章 中 所 述 

除了 无 线 局 域 网 的 速度 不 断 增 加 外 ，IEEE 802. 11 还 增强 了 其 他 功能 。IEEE 802. 11e 为 对 时 间 有 
严格 要 求 的 应 用 定义 了 一 套 服务 质量 (QoS) 功能 。IEFEE 802. 11i 为 安全 指定 了 增强 机 制 ， 因 为 在 黄 
初 的 802.11 标准 中 的 有 线 等 效 保密 (WEP) 被 证 明 是 不 安全 的 。 正 在 开发 中 的 一 些 标准 也 有 趣 
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IEEE 802. 11s 定义 了 在 ad hoc ( 自 组 织 ) 模式 的 设备 如 何 创 建 一 个 网 格 网 络 ，IEEE 802. 11k 和 [IEEE 
802. 11r 用 于 无 线 漫游 。 前 者 提供 信息 以 找到 最 合适 的 接 入 点 ， 而 后 者 允许 运动 中 设备 的 连接 和 快速 








切换 ， 

构建 模块 

802. 11 无 线 局 域 网 的 基本 构建 模块 是 一 种 基本 服务 集 (BSS)，BSS 是 由 使 用 了 符合 IEEE 802. 11 
标准 的 MAC 和 PHY 的 站 点 组 成 。 一 个 单独 的 BSS 称 为 一 个 独立 的 BSS (IBSS) ， 或 者 常 称 为 ad hoc 


( 自 组 织 ) 网 络 ， 因 为 它 经 常 是 在 没有 预先 规划 时 形成 的 ， 最 小 的 BSS 仅 包含 两 个 站 点 。 多 BSS 可 以 
通过 分 布 式 系统 (DS) 连接 。IEEE 802. 11 标准 不 强制 实现 DS 应 该 实现 的 内 容 ， 但 以 太 网 就 是 一 种 党 
用 的 DS。 一 个 DS 和 一 个 BSS 通过 接 入 点 (AP) 连接 起 来 。 这 个 扩展 的 网 络 结 I 为 一 种 基础 设施 。 


图 3-23 显示 了 无 线 局 域 网 中 的 构建 模块 。 图 3-24 描绘 了 在 IEEE 802. 11 中 的 层次 结构 。IEEE 802. 11 
PHY 由 红外 线 、DSSS、FHSS 和 OFDM 组 成 ， 如 第 2 章 所 述 。 在 它们 之 上 是 MAC gt 生 本 告 中 ， 
我 们 将 重点 介绍 下 EE 802. 11。 有 关 PHY 的 问题 ， 我 们 鼓励 有 兴趣 的 读者 参考 “进一步 阅读 ”中 的 
内 容 








分 布 式 系统 
(可 以 是 任何 一 种 局 域 网 ) 
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图 3-23 无线 局 域 网 中 的 IEEE 802. 11 构建 模块 
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FHSS: 跳 频 扩 频 
DSSS: 直接 序列 扩 频 
OFDM: 正 交 频 分 多 路 复 用 
IR: 红外 线 
图 3-24 JIEEE 802. 11 中 的 层次 结构 
CSMA/CA 
IEEE 802. 11 的 MAC 利用 两 个 主要 功能 分 配 带 宽 : 分 布 式 协调 功能 (DCF) 和 点 协调 功能 
(PCF)。DCF 在 802. 11 中 是 强制 执行 的 。PCF 仅 在 基础 设施 网 络 中 实现 。 be 功能 可 以 同时 在 同 
一 个 BSS 中 运行 。 
DCF 思想 又 称 为 载波 监听 多 路 访问 /冲突 避免 ( CSMA/CA)， 与 以 太 网 MAC 的 最 明显 区 别 在 于 冲 
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突 避 免 。 对 于 CSMA/CD 来 讲 ， 站 点 必须 在 发 送 前 进行 监听 。 如 果 有 一 个 站 点 正在 传输 ， 那 么 其 他 站 
点 将 被 推迟 直到 信道 空 为 止 。 一 旦 信道 为 空 ， 站 点 将 等 待 很 敌 时 间 ， 称 为 帧 间 空 间 (IFS)， 它 与 以 大 
网 中 的 帧 间 间 际 (IFG) 相同 .在 上 上 次 传输 的 时 间 内 ， 很 有 可 能 存在 多 个 站 点 同时 等 待 发 送 数据 的 情 
况 。 如 果 在 IFS 后 它们 都 获准 传输 数据 ， 那 么 就 很 可 能 导致 冲突 。 为 了 避免 可 能 的 冲突 ,站 点 在 再 次 
传 得 前 必须 等 待 一 个 以 时 阶 为 单位 的 随机 回 退 时 间 ， 回 退 时 间 是 0 ~ CW 内 随机 选择 的 。cCw 表示 竞争 窗 
口 ， 肥 值 范 用 为 cwmin ~ CWmax。CWmin、CWmax 以 及 时 际 都 取决 于 PHY 的 特性 。 最初， 将 cw 设置 
为 cwmin。 如 果 信 和 道 空 闪 一 个 IFS， 邢 么 回 退 时 间 就 减 去 一 个 时 际 ; 否则， 回 退 时 间 回 定 直 到 信道 空闲 
为 止 。 当 回 退 时 间 最 终 为 零 时 ， 站 点 就 开始 传输 。 当 帧 被 成 功 接收 时 ， 接 收 机 便 发 送 回 一 个 确认 给 
发 送 者 。 确认 是 必需 的 ， 以 便 确认 帧 是 否 在 接收 方 发 生 了 冲突 。 行动 原则 : “为 什么 在 WLAN 中 不 
使 用 CSMAZCD?” 对 此 有 更 多 的 说 明 : 图 3-25 总 结 了 CSMA/CA 过 程 。 除 了 确认 外 ， 接 收 过 程 类 似 于 
CSMA/CD, 
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图 3-25 ”CSMA/CA 流程 图 


行动 原则 : 为 什么 在 WLAN 中 不 使 用 CSMA/CD 

IEEE 802. 11 MAC 和 IEEE 802.3 MAC 之 间 的 明显 区 别 在 于 ， 在 无 线 局 域 网 中 的 冲突 检测 是 难以 实 
现 的 。 全 双 工 无 线 电 频率 (RF) 实现 成 本 很 高 ， 潜 在 的 隐藏 站 点 会 使 冲突 检测 失败 。 后 者 又 称 为 隐藏 
终端 问题 ， 如 图 3-26 所 示 。 站 点 A 和 站 点 C 都 无 法 侦 测 到 对 方 的 存在 ， 因 为 它们 位 于 彼此 的 传输 范围 
之 外 ， 如 果 它 们 同时 向 站 点 B 传输 数据 ， 冲 突 将 在 站 点 B 上 发 生 但 不 能 被 站 点 A 和 站 点 C 检测 到 。 与 





图 3-26 隐藏 站 点 问题 
尺 太 网 中 如 果 检 测 到 冲突 便 立 即 停 止 发 送 冲 突 检 测 不 同 ， 发 送 方 没有 办 法 知道 传输 中 的 帧 是 否 已 经 损 
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坏 ， 直 到 传输 完成 后 发 送 方 也 还 有 收 到 确认 为 止 。 因此， 如 果 传 输 长 帧 ， 冲 突 的 成 本 是 很 大 的 。 另 一 
方面 ， 如 果 成 功 接收 帧 并 且 FCS 是 正确 的 ， 那 么 接收 方 应 该 用 确认 应 答 。 但 以 太 网 就 没有 这 种 确认 的 
必要 

RTS/CTS: 首先 进行 清理 

一 个 减少 冲突 成 本 的 可 选 改 进 方法 ， 是 一 种 显 式 的 RTSZCTS 机 制 ， 如 图 3-27 所 示 ,。 在 传输 帧 之 
前 ， 发 送 方 (站 点 A) 通知 目标 接收 方 〈 站 点 B) 用 一 个 小 请 求 发 送 ( RTS)。RTS 很 容易 遭遇 冲突 ， 
但 其 代价 会 很 小 。 接 收 方 用 一 个 小 清除 发 送 (CTS) 帧 作为 响应 ， 这 也 会 通知 其 传输 范围 内 的 所 有 站 
点 (包括 站 点 A 和 站 点 D)。 这 两 个 帧 都 携带 了 持续 时 间 字 段 。RTS 中 的 持续 时 间 字 段 是 命令 发 送 方 
(A 站 点 ) 周转 的 站 点 (如 C 站 点 ) 应 该 等 待 的 时 间 ， 当 接收 带 发 送 CTX 返回 给 发 送 器 时 ， 在 接收 方 
(站 点 B) 传输 范围 之 内 的 其 他 站 点 (如 站 点 B) 将 在 CTS 指定 的 持续 时 间 内 控制 发 送 并 且 不 需要 物理 
上 的 载波 侦 听 ， 因 此 CTS 之 后 的 帧 在 接收 方 ( 站 点 B) 就 不 会 再 有 冲突 了 。 因 此 ， 这 种 机 制 也 称 为 虚 
拟 载波 侦 听 ， 注意 只 关心 接收 方 产生 的 冲突 ， 而 不 关心 发 送 方 的 冲突 。 此 外 ，RTSZCTS 机 制 只 适用 于 
单 播 帧 。 在 组 播 和 广播 的 情况 下 ， 多 个 接收 方 的 CTS 将 导致 冲突 ， 同样， 在 这 种 情况 下 ， 也 不 会 发 送 
已 经 传输 帧 的 确认 帧 。 
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A 的 传输 距离 B 的 传输 距离 A 的 传输 距离 B 的 传输 距离 
图 327 RTS/CTS 机 制 

PCF 和 DCF 交错 

驻 留 在 AP 中 的 点 协调 器 (PC) 在 每 个 BSS 内 实施 PCF。PC 定期 发 送信 标 帧 ， 宣 布 无 竞争 阶段 
(CFP)。BSS 内 的 每 个 站 点 侦 测 到 信 标 帧 后 就 在 CFP 期 间 保 持 沉 默 。PC 有 权 决 定 谁 可 以 传输 ， 并 且 仅 
被 PC 轮 询 过 的 站 点 才能 传输 。 标 准 中 未 指定 轮 询 顺 序 ， 有 基体 由 供应 商 决定 。 

DCF 和 PCF 可 以 在 图 3-28 所 示 的 场景 中 共存 。 在 图 示 中 ，CFP 是 第 一 步 ， 而 CP 〈 竞 争 阶段 ) 是 
第 二 步 。 


























CFP 重 复 阶段 延 认 CFP 重 复 阶段 
| = = 
无 竞争 阶段 竞争 阶段 
| 信 株 | PCF | DCF 忙 售 杯 PEF | DCF 
时 间 线 


图 3-28 CDF 和 PCF 共存 

1) DCF 可 以 紧 跟 一 个 CFP， 并且 BSS 进入 一 个 称 为 竞争 阶段 (CP) 的 时 期 。 

2) 之 后 ，PC 利用 一 个 称 为 CFP 重复 期 间 的 字段 发 送信 标 帧 ， 但 如 果 在 CP 结束 时 信道 恰好 忙 ， 
就 延迟 一 个 CFP 重复 期 间 。 

图 3-29 描绘 了 通用 的 正 EE 802. 11 MAC 帧 格式 。 某 些 帧 类 型 可 能 只 包含 这 些 字 有 段 中 的 一 个 子 集 。 
四 个 地 址 字段 可 以 记录 源 地 址 、 目 的 地 地 址 、 发 送 方 地 址 (在 无 线 桥接 中 ， 从 接 入 点 到 一 个 无 线 站 
点 )、 接 收 方 地 址 (到 连接 到 另外 一 个 接口 的 接 入 点 )。 后 两 个 地 址 是 可 选 的 ， 用 于 与 接 入 点 桥接 。 我 
们 将 帧 分 成 三 种 类 型 。 

1) 控制 帧 : RTS、CTS、ACK 等 。 

2) 数据 帧 : 正常 数据 。 
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3) 管理 帧 ; 信和 标 等 


通用 帧 格式 









| 帧 控制 | Wi 帧 主体 





地 址 1 | 地 址 2 








地 址 3 加 列 控制 地 址 4 
[8 总 


名 2 6 6 0 0-2312 4 
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图 3-29 通用 IEEE 802.11 帧 格式 
要 完全 掌握 这 些 类 型 ， 震 要 深刻 理解 每 种 下 PE 802. 11 的 操作 。 除 了 四 种 地 址 外 ， 帧 控制 字段 指 
定 帧 的 类 型 和 与 帧 相关 的 一 些 信息 。 持 续 时 间 ZID 字段 指定 介质 或 站 点 所 属 的 BSS 标识 符 期 望 的 忙 时 
间 阶 段 。 顺 序 控制 字段 指定 帧 的 序列 号 以 避免 重复 帧 . 由 于 使 用 的 格式 是 复杂 的 ， 并 且 要 取决 于 帧 的 
类 型 ， 所 以 想 要 了 解 详情 的 读者 可 以 参考 IEEE 802. 11 标准 。 


开源 实现 3.6: 用 NS-2 模拟 IEEE 802. 11 MAC 

概述 

与 CSMA/CD 不 同 ， 直 到 目前 为 止 也 没有 CSMA/CA 的 开源 硬件 实现 因此， 我 们 引进 一 种 流行 
的 开源 模拟 器 NS-2 未 模拟 一 个 802. 11 MAC NS-2 是 一 种 用 于 网 络 研 究 的 离散 事件 模拟 器 ， 并 对 模 
拟 通过 有 线 和 无 线 网 络 的 TCP、 路 由 、 多 播 协议 提供 大 力 支持 。 在 基于 事件 的 模拟 器 中 ， 网 络 中 的 
所 有 活动 都 以 带 有 时 间 戳 的 事件 统计 地 产生 ， 有 具体 由 事件 调度 器 调度 发 生 。 许多 研究 人 员 利 用 NS-2 
评估 他 们 在 早期 设计 阶段 的 协议 。 最 近 NS-2 已 经 广泛 地 用 于 模拟 802. 11 网 络 的 行为 

框图 

图 3-30 给 出 了 NS-2 中 的 802. 11 MAC 和 PHY 的 体系 结构 ， 它 由 几 个 网 络 模块 组 成 。 为 了 简单 ， 
可 以 将 它们 分 为 以 下 三 个 主要 层 : 

1) 层 2 有 三 个 子 层 .首先 是 链 路 层 对 象 ， 这 是 传统 局 域 网 中 的 逻辑 链 路 控制 (LLC)。， 链 路 层 对 
象 与 将 在 第 4 章 中 介绍 的 地 址 解析 协议 (ARP) 一 起 工作 ， 其 次 是 接口 队列 ， 为 动态 源 路 由 协议 
(DSR) 等 的 路 由 协议 消息 分 配 优先 级 最 后 是 802. 11 MAC 层 ， 它 处 理 所 有 RTS/CTS/DATA/ACK 单 
播 帧 和 所 有 数据 (DATA) 的 广播 帧 。CSMA7ZCA 就 在 这 一 层 实 现 ， 

2) 层 1 是 802.11 PHY， 一 个 可 以 基于 直接 序列 扩 频 设置 参数 的 网 络 接口 。 这 些 参 数 包 括 天 线 类 
型 、 能 源 模型 、 无 线 电 传播 模型 ， 

3) 层 0 是 信道 层 . 模拟 用 于 无 线 通 信 的 物理 空气 介质 ,信道 层 从 无 线 节 点 向 侦 测 范围 内 的 其 他 节 
点 发 送 帧 ， 并 将 帧 复制 到 层 1 





链 路 层 对 象 


接口 队列 


局 大 人 















层 0 信道 
图 3-30 NS-2 802. 11 MAC 和 PHY 的 体系 结构 
数据 结构 
在 本 设计 中 最 重要 的 数据 结构 是 一 组 定时 器 ， 和 包括 发 送 定时 器 、 回 退 定时 器 、 接收 定时 器 和 延迟 
定时 器 等 ， 如 图 3-31 所 示 。 以 下 部 分 将 通过 描述 这 些 定 时 器 与 函数 调用 之 间 的 交互 作用 ， 详 细 冰 述 
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802. 11 MAC 和 PHY 的 操作 ， 











5 retransmitRTS( ) tx_resume() 一 启动 回 退 定时 器 
check_pktRTS( ) transmit( ) 启 动 发 送 定时 器 
deferHandiert ) = check_pktCTRL( ) transmit( ) 局 动 接收 定时 器 
check_pktTx( ) transmit( ) 
TecvACK() tX_Tesurnef ) callback_ rx_resume( ) 
recvRTS( ) -一 sendCTS() tx_resume( ) 
ey recvCTS( ) ~ tx_resumet ) 启 动 延 迟 定 时 器 _ rx_resume( ) 
recvDATA( ) “~ SendCTS() - Uptarget_ 一 -~ TECV( ) ~ start defer imer -= rx_resume( ) 
backoffHandler( ) -— check_pktRTS( ) transmit( ) 
局 动 接收 定时 器 
人 sendl ) sendDATA( ) 和 | sendRTS() “启动 延迟 定时 器 





图 3-31 802.11 MAC 的 NS-2 源 代码 


算法 实现 
802. 11 MAC NS-2 源 代 码 
802. 11 MAC 是 MAC 层 的 一 个 子 类 ， 与 其 相关 的 源 代 码 为 mac-802 11.cc 、mac-802 11.h 、mac- 
timer.cc 和 mac-timer.h。 为 了 更 好 地 理解 NS-2 MAC 源 代 码 ， 在 图 3-31 中 列 出 了 主要 入 口 函 数 ， 并 
描述 其 相关 函数 的 调用 序列 。 由 于 NS-2 是 基于 事件 的 ， 所 以 当 相 应 的 事件 触发 时 ， 除 了 主 recv () 函 
数 外 ，send timer ()、deferHandler () 、recv timer () 和 backoff-Handler () 也 作为 入 口 点 
至 于 802. 11 MAC 的 接收 和 传输 流 ，recv () 函数 既 处 理 来 自 物 理 层 的 帧 也 处 理 来 自 上 层 的 帧 。 另 一 个 
send () 函数 是 传输 流 的 一 个 入 口 点 ， 但 它 被 feev () 函数 调用 用 于 处 理 外 出 帧 。 
下 面 是 主要 入 口 点 的 详细 解释 ， 
e send timezr() 用 于 处 理 来 自 其 他 移动 节点 的 确认 帧 ， 当 传输 定时 器 过 期 时 就 被 调用 。 根 据 发 
送 帧 的 不 同类 型 ， 对 定时 器 过 期 有 着 不 同 的 解释 。 例 如 ， 如 果 最 后 发 送 的 帧 是 RTS， 过 期 就 意 
味 着 CTS 没有 收 到 ， 既 可 能 因为 RTS 发 生 了 冲突 ， 也 可 能 因为 接收 节点 延迟 传输 。MAC 通过 利 
用 函数 RetransmitRTS () 重 传 RTS 作为 响应 。 如 果 最 后 一 帧 是 数据 帧 ， 过 期 就 意味 着 没有 收 
到 ACK，MAC 就 会 调用 RetransmitDATA () 来 处 理 这 种 情况 。 定 时 器 过 期 处 理 之 后 ， 就 要 准备 
帧 的 重 传 ， 将 控制 返回 给 tx_resume () 函数 。 当 最 后 一 帧 为 CTS 或 ACK 时 ，send time () 函 
数 直接 调用 tx resume () ， 无 需 进 一 步 重 传 。 经 过 tx resume () 处 理 后 ， 如 果 帧 重 传 ， 回 退 定 
时 器 就 会 以 递增 后 的 竞争 窗口 启动 。 
recv() 处 理 无 论 是 从 物理 层 还 是 从 上 层 传 入 的 帧 ， 当 有 帧 要 发 送 时 ，recv () 调用 send ()。 此 
外 ，send() 调 用 sendDATA () 和 senaRTS () 为 数据 帧 和 RTS 帧 构建 MAC 头 部 。 如 果 recv () 准 
备 接收 帧 ， 二 进入 的 帧 就 被 传递 到 recv time () 并 启动 帧 接收 定时 器 。 
backoffHandler() 是 当 回 退 定时 器 到 期 时 被 调用 的 一 个 事件 服务 例 程 。 当 信道 忙 时 ， 回 退 定 
时 器 用 于 暂停 传输 。 调 用 backoffHandler () 后 ， 函 数 check pktRTS () 检 查 是 否 有 RTS 由 
等 竺 发送。 如 果 没有 未 处 理 的 RTS 帧 ， 那 么 当 定时 器 过 期 时 将 传输 RTS 或 数据 帧 ， 有 具体 取决 于 
是 否 启 用 了 RTSZCTS 机 制 。 
® recv timer () 是 接收 定时 器 处 理 例 程 ， 它 将 检查 接收 帧 的 类 型 和 子 类 型 。 当 接收 定时 器 过 期 
时 ， 调 用 接收 定时 器 处 理 例 程 。 定 时 器 过 期 意味 着 一 个 帧 完全 被 接收 并 且 采 取 进 一 步 的 处 理 ， 
MACrecv timer () 的 决策 取决 于 接收 到 的 帧 类 型 。 如 果 它 是 MAC Type Management， 那 么 帧 
将 会 被 丢弃 ,如 果 接 收 到 了 RTS、CTS、ACK 或 DATA 上 帧 ， 那 么 将 分 别 调 用 recvRTS () 、 
recvCTS () ，recvACK () 或 recvDATA () 。 帧 被 妥善 处 理 后 ， 就 将 控制 交 给 zx resume () ， 
。 deferHandler () 也 是 一 个 事件 服务 例 程 ， 并 且 当 延迟 定时 器 到 期 时 就 被 调用 。Defer 推迟 定时 
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器 等 于 延迟 时 间 加 上 回 退 时 间 ， 这 保证 无 线 节 点 在 传输 前 等 待 足够 的 时 间 ， 以 减少 冲突 的 机 会 。 
调用 例 程 后 ， 检 查 函 数 调用 check pktRTS () 、check pktTx() 和 check _pktCTRL () 准备 一 
次 新 的 传输 。 如 果 其 中 任何 一 个 check 函数 返回 一 个 零 值 ， 那 么 check 函数 就 成 功 地 传送 了 
一 个 帧 ， 因 为 Defer 推迟 处 理 例 程 就 结束 了 。 对 于 RTS 和 控制 帧 ， 传 输 过 程 也 可 能 局 动 接收 定 
时 器 和 发 送 定时 器 以 便 从 另 一 个 移动 节点 接收 确认 帧 。 
CSMA/CA 操作 
CSMA/CA 操作 是 在 send () 函数 中 进行 的 .图 3-32 显示 了 它 的 代码 ， 这 里 mhBackoff . busy() = = 
0 意味 着 回 退 定时 器 不 忙 ，is _ idle () = =1 表示 无 线 信道 空 用 ，mhDefer . busy() = =0 表示 延迟 定时 
器 不 忙 。 如 果 无 线 信 道 空 闲 并 且 回 退 和 延迟 定时 器 都 不 忙 ， 那 么 send () 函数 将 进行 一 次 延迟 操作 ; 否则 继 
续 等 待 而 不 重新 设置 定时 器 。 如 果 它 进行 一 次 延迟 操作 ， 发 送 帧 就 需要 延迟 一 个 DIFS 时 间 加 上 一 个 随机 时 
间 ， 即 Phymib 。getDIFS () +rTime。 随 机 时 间 是 从 (Random:: random ()% cw ) Xx (phymib . 
getSlotTime () ) 计算 出 来 的 ， 间隔 为 0~cw_ 值 ， 其 中 cw 为 当前 的 竞争 窗口 。 如 果 回 退 定时 器 不 
忙 ， 但 无 线 信道 并 不 空间 ， 这 就 意味 着 检测 到 PHY 介质 忙 ， 节 点 通过 调用 mhBackoff . start 
is idle()) 启动 回 退 定时 器 


(cw , 





void send(Packet *p, Handler *h) { 


if (mhBackoff .busy() == 0) { 


if(is idle()) { 
if (mhDefer .busy() == 0) { 
rTime = (Random: :random() % cw )* 


(phymib .getSlotTime()); 
mhDefer .start (phymib .getDIFS() + rTime); 
} 
} else { 


mhBackoff .start(cw , is idle()); 
} 


} 











图 3-32 在 send() 抑 数 中 的 CSMAZCA 操作 
Tal 脚本 模拟 
NS-2 模拟 可 以 通过 定义 模拟 场景 的 Tel 脚本 文件 开始 。Tcl 脚本 包含 网 络 拓 扑 定义 、 无 线 节 点 配 
置 、 节 点 坐标 、 运 动 场景 和 数据 包 跟 踪 。 
图 3-33 描绘 了 一 个 由 两 个 移动 节点 (节点 0 和 节点 1) 组 成 的 自 组 织 网 络 的 一 个 简单 场景 。 移 动 
节点 的 移动 区 域 在 500m x500m 范围 内 。 为 了 FTP 服务， 还 建立 了 一 条 TCP 连接 。 表 3-7 在 wireless. tcl 
脚本 文件 中 描述 了 详细 的 场景 ， 定 义 了 如 图 3-33 所 示 的 例子 。 


FTP TCP 代 理 TCP 接收 
802.11 自 组 织 网 络 
(一 一 和) 


图 3-33 ”两 个 移动 节点 使 用 TCP 和 FTP 的 一 个 NS-2 例子 
习 
为 什么 send () 函数 从 recv() 中 调用 ? 
为 什么 发 送 帧 要 随机 等 待 一 段 时 间 ? 


避 一 共 
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表 3-7 图 3-33 的 NS-2 Tcl 脚本 
描 述 wireless. tcl 的 主要 代码 





set val ( chan) Channel/WirelessChannel ”; # 信 道 类 型 
定义 选项 信道 类 型 、 无 线 | set val (prop) ”PropagationATwoRayGround ; # 无 线 电 传播 模型 








电 传 播 模型 等 set val ( netif) Phy/WirelessPhy ; # 网 络 接 口 类 型 
set ns_ [new Simulator ] # 创 建 一 个 模拟 对 象 
set tracefd | open simple.tr w ] # 定 义 一 个 追踪 文件 ， 记 录 所 有 的 帧 
创建 一 种 模拟 、 跟 踪 和 拓扑 a 
set topo | new Topography | # 创 建 一 个 拓扑 
$topo load_flatgrid 500 500 # 设 置 500m x 500m 的 拓扑 范围 
create-god $val(nn) # 创建 God 
set chan_1_[new $val(chan)| # 配 置 节点 
建立 信道 并 配置 MAC 节点 $ns_node-config -adhocRouting $val(rp) \ 


# 为 node-llType $ val (ID 、\ 设 第 参数 





Phy/ WirelessPhy set Pt_0.031622777 


为 802. 11 PHY 设置 参 
" 此 置 寡 数 Phy/ Wireless Phy set bandwidth_11Mb…: 





for |set i0! | $i < $val(nn) | Jineril | 
杖 止 随机 移动 set node_( $i) | $ns_node| 


$node_( $i) random-motion 0 





$node_ (0) set X_ 10.0 # 和 节点 0 坐标 设置 在 (10.0，20.0，0.0) 
建立 并 初始 化 两 个 无 线 节 点 | 全 
坐标 (X; Y，2) $ns_initial_node_pos $node_(0) _10 


$ns_initial_node_pos $node_(1) _10 





在 两 个 节点 之 间 建 立 TCP 和 
FTP 流 


set tcp [ new ABEHLATGEZ7Sackj ] # 创 建 一 个 TCP 连接 


$ftp attach-agent $ tcp 





$ns_at 1.0 “种 ftp start” # 在 1.0 s, 开始 传输 
开始 模拟 ss 


$ns_run 








3. 4. 2 ”蓝牙 技术 


除了 计算 机 后 面 大 量 的 电缆 连接 到 计算 机 外 围 设备 之 外 ， 还 需要 更 多 的 电缆 连接 到 不 同类 型 的 通 
信和 网 络 设 备 。 这 些 电 缆 是 如 此 地 繁琐 累 效 ， 为 了 方便 ， 最 好 能 够 摆脱 它们 。 蓝 牙 ， 根 据 10 世纪 丹麦 
国王 的 名 字 命名 ， 恰 好 是 支持 短 距 离 (通常 在 10m) 无 线 电 链 路 以 取代 用 电缆 连接 电子 设备 的 技术 . 
1998 年 ， 五 大 公司 分 别 是 ， 爱 立信 、 诺 基 亚 、IBM、 东 芝 和 英特尔 合作 开发 了 蓝牙 技术 。 为 了 确保 蓝 
le let ge Met map anit 成 立 了 由 许多 公司 组 成 的 蓝牙 特别 
兴趣 小 组 (Bluetooth SIG)， 以 促进 和 定义 新 的 标准 。 

蓝牙 设备 工作 在 2.4GHz ISM 频段 ， 与 大 多 数 IEEE 802. 11 设备 使 用 的 跳 频 方式 相同 。 频 带 范围 是 

2. 400 ~2.4835GHz， 其 中 791MHz 频率 用 于 跳 频 以 避免 来 自 其 他 信号 的 十 扰 。 之 下 和 之 上 的 信道 分 别 

是 2MHz 和 2.5MHz 的 防护 频带 。 细 心 的 读者 可 能 会 立即 注意 到 ， 当 IEEE 802. 11 与 蓝牙 设备 近 距 离 操 
作 时 可 能 出 现 干扰 问题 。IEEE 802. 11 和 蓝牙 设备 的 共存 问题 是 一 个 大 问题 ， 对 此 我 们 将 在 本 节 中 做 更 
多 的 讨论 。 蓝 牙 因 其 短 距离 而 被 划 入 无 线 个 域 网 (无线 PAN) 。 

在 微微 网 和 扩散 网 中 的 主 设备 和 从 设备 

图 3-34 显示 了 基本 的 蓝牙 拓扑 结构 。 与 802. 11 中 的 BSS 一样， 多 台 设 备 共 享 同一 个 信道 形成 一 
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个 微微 网 (piconet)。 与 1BSS 不 同 的 是 ， 在 微微 网 中 的 所 有 站 点 孝 是 同等 一 个 微微 网 只 能 由 一 
ee 备 和 多 个 从 设备 组 成 。 主 设备 有 权 控 制 微 微 网 中 信道 的 接 入 ， a 列 。 从 设备 既 可 

是 活动 的 也 可 以 是 休眠 的 ,一 个 主 设备 同时 控制 最 多 7 个 从 设备 。 休眠 的 从 设备 停止 通信 ， 但 它 
-> | 仍 0 并 根据 主 设 备 的 需要 可 以 变 成 活动 的 。 如果 一 个 主 设备 希望 与 多 于 7 个 
的 从 设备 通信 ， 它 将 通知 一 个 或 多 个 活动 的 从 设备 进入 休眠 模式 ， 然 后 邀请 目标 休 眼 从 设备 变 成 活 
动 的 的 设备 同时 通信 ， 多 个 微微 网 可 以 彼此 重 登 形成 一 个 较 大 的 扩散 网 (scattemet) 
图 3-34 也 说 明了 两 个 微微 网 利用 ra 节点 形成 扩散 网 ， 网 桥 可 以 是 两 个 微微 网 中 的 从 设备 或 者 一 个 
微微 网 中 的 主 设 备 。 网 桥 节 点 以 时 分 模式 参与 到 两 个 微微 网 ， 以 便 它 有 时 届 于 一 个 微微 网 ， 有 时 属 
于 另 一 个 微微 网 





主 设备 SN 控 制 信道 访问 ) 





从 设备 


微微 网 扩散 网 
图 3-34 蓝牙 折 扑 : 微微 网 和 扩散 网 

查询 和 寻 呼 过 程 

蓝牙 wl 须 彼此 感知 。 查 询 过 程 是 为 了 让 附近 的 设备 发 现 对 方 ， 有 间作 寺村 各 玫 
立 一 条 连接 。 最 初 ， 在 默认 情况 下 所 有 蓝牙 设备 都 处 在 待机 模式 ， 有 意 通信 的 设备 将 尝试 在 其 覆盖 范 
则 内 广播 查询 。 广播 设备 附近 的 其 他 设备 如 果 愿 意 与 它 通 信 ， 就 可 能 用 自己 的 信息 〈 如 地 址 ) 对 查询 
做 出 响应 。 一 且 收 到 这 些 响应 ， 查 询 者 就 会 知道 周 赎 存在 的 设备 ， 并 成 为 微微 网 的 主 设 备 ， 而 其 他 设 
ee boa 查询 结束 后 ， ee 目的 设备 然后 用 一 个 
确认 进行 响应 ， 于 是 主 设备 和 目的 设备 之 间 就 建立 了 连接 。 然 后 ， 从 设备 可 以 运行 相同 的 寻 呼 过 程 ， 
接管 微微 网 中 的 王 设备 。 这 个 过 程 的 细节 图 了 所 示 。 值 得 注意 的 是 ， 多 个 对 查询 的 响应 会 导致 
冲突 。 因 此 ， 接 收 设 备 应 推迟 一 个 随机 回 退 时 间 后 再 做 出 响应 


跳 频 时 隐 2 应答 (经 过 随机 回 退 后 ) 
将 微微 网 信道 分 成 许多 时 隙 ， 每 个 时 隙 都 容纳 不 同 的 跳 频 ey 
频率 ,一 个 时 际 的 持续 时 间 是 625 微 秒 (hs)， 这 是 跳 频率 1. 查 询 (广播 ) 有 a 
} 


1600 跳 / 秒 的 倒数 。 主 /从 设备 对 以 相同 的 跳 频 序列 时 分 复 用 在 
79 个 1MHz 信道 中 的 时 际 ， 跳 频 序列 是 从 双方 都 知道 的 一 个 伪 





3. 寻 呼 
随机 序列 中 推导 而 来 。 其 他 的 从 设备 与 通信 过 程 无 关 。 当 数据 
传输 速率 为 1Mbps 时 ， 每 个 时 隙 在 理想 情况 下 可 以 传输 625 位 ~ 人- 
数据 ， 但 是 ， 由 于 时 隙 内 的 某 一 时 间 段 预 留用 于 跳 频 和 稳定 日 和 从 设备 
的 ， 所 以 每 个 时 际 实际 上 最 多 可 携带 366 位 数据 信息 tod, 

每 个 时 阶 可 以 承载 一 个 蓝牙 帧 ， 它 带 有 72 位 接 人 码 的 字段 ~、O 

54 位 头 部 信息 ， 以 及 可 变 长 度 的 有 效 载 苟 。 显 然 ， 在 理想 情况 

下 ， 可 以 承载 625 位 的 时 隙 内 仅 承 本 366 -72 - 54 = 240 位 从 设备 
(30 字 节 ) ， 可 见 其 效率 非常 低 。 为 了 提高 效率 ， 蓝 牙 帧 在 相 图 3-35 查询 和 寻 呼 过 程 
同 的 频率 下 允许 占据 连续 5 个 时 阶 ， Es 5 个 时 阶 内 仅 消 耗 了 625 - 366 =259 位 用 于 跳 频 控制 


交错 穿插 的 预 留 时 隙 和 分 配 时 隙 
蓝牙 连接 有 了 两 种 使 用 时 际 进行 通信 的 选择 。 第 一 种 是 同步 面向 连接 的 链 路 (SCO 链 路 ) ， 它 定期 
保留 时 际 用 于 有 时 间 限 制 的 信息 ， 如 语音 数据 。 例 如 ， 一 个 电话 级 语音 的 采样 率 为 8kHz， 每 次 采样 
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产生 一 字 节 ; 换 名 话说， 每 0. 125ms 产生 一 字 节 ， 因 为 在 每 个 时 际 内 一 帧 可 以 携带 30 字 节 ， 每 
3. 75ms i 125ms x 30) 应 保留 一 个 时 际 传输 语音 数据 。 每 个 时 际 长 度 为 625 微 秒 ， 这 意味 着 每 6 个 
(3.75ms/625ms) 时 际 ， Je 第 二 个 是 异步 无 连接 的 链 路 (ACEL 链 路 )， 其 中 时 际 

是 按 需 分 配 的 而 不 是 保留 的 。 主 设备 负责 来 自 一 个 或 多 个 从 设 轴 玉 的 时 黎 务 本 ， 以 避免 冲突 并 控 
制 链 路 的 服务 质量 ee 当主 站 轮 询 时 ， 从 站 允许 向 主 站 发 送 一 个 ACL 帧 。 与 无 线 局 域 网 中 的 
PCF 和 DCF 类似，SCO 和 ACL 时 隙 是 交错 穿 捅 的 ， 但 是 主要 区 别 在 于 ACL 运行 了 一 种 无 冲突 的 轮 询 
和 时 际 分 配 。 图 3-36 显示 SCO 链 路 和 ACL 链 路 的 时 陆 。SCO 链 路 中 的 帧 是 相当 有 规律 的 ， 而 ACL 
链 路 中 的 帧 则 是 按 需 的 。 


SCO [一] SCO SCO ACL ACL SCO SCO 


- 计生 


从 设备 1 | | | | 
从 设备 2 一 二 一 十 一 和 一 上 一 本 一 一 十 一 二 一 二 一 必 - 寺 图 上 一 人 一 


图 3-36 SCO 链 路 和 ACEL 链 路 的 时 际 
图 3-37 描绘 了 蓝牙 技术 规范 中 的 协议 栈 。 每 个 软件 模块 的 功能 在 图 3-37 中 右 侧 描述 。 粗 黑 线 以 上 
的 模块 在 软件 中 实现 ， 其 他 在 硬件 中 实现 。 基 带 和 射频 模块 [的 链 路 管理 融 协 议 负 责 蓝 牙 单 元 之 间 的 
链 路 建立 ， 该 协议 还 可 以 处 理 数 据 包 大 小 和 加 密 密 钥 的 协商 ， 并 执行 实际 的 加 密 和 解密 

















| 应 用 | 软件 模块 
L2CAP: 为 高 层 协议 建立 信道 

HOI 控制: 控制 睹 牙 芯 片 的 接口 

SDP: 对 等 设备 的 服务 发 现 和 查询 

RECOMM 协 议 : RS-232 电 缆 连 接 借 拟 















蓝牙 攻 片 
RF: 无 线 电 特 征 
基带 : 设备 发 现 、 链 路 建立 
| LMP: 基带 链 路 配置 和 管理 
图 3-37 蓝牙 协议 栈 ， 其 中 基带 和 链 路 管理 苏 议 起 到 MAC 子 层 的 作用 

惕 辑 链 路 控制 和 适 配 层 〈L2CAP) 模块 支持 多 路 复 用 、 分 段 和 为 高 层 协议 重组 数据 包 。 它 也 支持 
Qos 的 通信 。 服 务 发 现 协议 可 以 发 现 其 他 蓝牙 设备 上 提供 的 服务 。RFCOMM 协议 提供 了 使 用 蓝牙 技术 
以 奉 代 经 过 电缆 的 串 行 通信 它 可 以 通过 L2CAP 模拟 RS-232 串 行 端口 。 主 机 控制 接口 ( HCI) 控制 为 
主机 提供 软件 接口 以 便 控制 蓝牙 硬件 








3.4.3 WiMAX 技术 

在 IERE 802. 16 中 指定 的 WiMAX 技术 可 以 支持 高 达 数 公里 的 远 距 离 无 线 通 信 。 与 IEEE 802. 11 中 
的 无 线 局 域 网 和 在 IEEE 802. 15 无 线 个 域 网 相 比 ，WiMAX 也 称 为 无 线 城 域 网 ， 得 名 于 远 距 离 的 通信 范 
用 。WiMAX 设备 部 署 既 可 以 是 固定 的 ， 也 可 以 是 移动 的 。IEEE 802. 16-2004 指定 的 技术 用 于 固定 连 
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接 。IEEE 802. 16-2004 的 主要 应 用 是 当 有 线 连接 (如 ADSL 或 电缆 调制 解 调 咒 ) 非常 昂贵 时 使 用 的 
第 一 公里 ”的 宽带 接 人 -。IEEE 802. 16e-2005 标准 规定 了 用 于 移动 的 连接 ， 其 应 用 是 经 过 移动 设备 的 
互联 网 接 入 ， 

有 具有 带宽 分 配 和 调度 的 MAC 

WiMAX 在 许多 方面 不 同 于 802. 11 无 线 局 域 网 。 首 先 ， 它 们 的 应 用 目标 不 同 。IEEE 802. 11 主要 是 
为 在 家 中 或 办 公 室 等 使 用 的 短 距离 连接 并 发 的 ， 但 WiMAX 则 是 为 了 数 公 里 远 的 宽带 连接 而 开发 的 
其 次 ， Bt 质 访问 控制 机 制 。IEEE 802. 11 是 基于 竞争 的 ， 这 意味 着 无 线 设 备 必须 苑 争 可 
用 的 带宽 。 因 此 ， 它 是 不 适合 于 VoIP 等 时 间 敏 感 的 应 用 ， 除 非 有 802. 11e 标准 能 够 提供 QoS 服务 。 相 
反 ，WiMAX 采用 调度 算法 在 设备 之 问 分 配 带 宽 . 在 WiMAX 中 ， 基 站 为 某 个 设备 分 配 一 个 时 际 ， 这 样 
其 他 设备 就 不 能 使 用 该 时 院 。 因 此 ， 基 站 就 可 以 服务 于 大 量 的 用 户 站 点 并 为 时 间 敏 感 的 应 用 控制 时 隐 
分 配 。 事 实 上 ， 它 的 MAC 类 似 于 电线 调制 解 调 器 标准 DOCSIS， 因 为 两 者 都 有 上 行 /下 行 的 结构 有 利于 
集中 式 的 带宽 分 配 和 调度 。 更 多 详细 信息 ， 可 以 从 以 下 网 站 获得 一 个 WiMAX 网 络 的 NS -2 模拟 模块 : 


http: /A/www. lre. ic. unicamp. br/wimax_ ns2 


历史 演变 : 蓝牙 与 IEEE 802. 11 的 比较 

蓝牙 和 IEEE 802. 11 用 于 不 同 的 目的 。IEEE 802. 11 的 目的 是 无 线 局 域 网 标准 ， 而 蓝牙 用 于 无 线 个 
域 网 (无 线 PAN, 或 WPAN), 表 3-8 总 结 了 IEEE 802. 11 和 蓝牙 之 间 的 比较 ,IEEE 802.15 WPAN 工 
作 组 和 蓝牙 SIG 合作 以 促进 蓝牙 标准 .IEEE 802. 15 工作 组 2 侧重 于 解决 由 于 可 能 的 干扰 而 引起 的 共存 
问题 ， 因 此 预计 这 两 种 标准 可 以 实现 共存 。 


表 3-8 蓝牙 与 802. 11 的 比较 
IEEE 802. 11 蓝牙 





i 2.4CHz 的 (802. 11，802.11) 
频率 本 2.4GHz 
SGHz (802.11a) 





1 、2Mbps (802. 11) 

















数据 速率 5.5、11Mbps (802. 11) 1 ~3Mbps (建议 将 来 可 达 53 ~480Mbps ) 
54 Mbps (802. 11) 

范围 约 100m 1 ~100m， 根 据 功率 等 级 

功 耗 较 高 (1W， 通 常 30 ~100mW) 较 低 (1mW，100mW， 通 常 约 lmW) 

PHY 规范 红外 线 、OFDM 、FHSS 、DSSS ( 白 适 应 ) FHSS 

MAC DCF、PCF 时 隙 分 配 

价格 较 高 | 较 低 





主要 应 用 无 线 局 域 网 短 距离 连接 
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从 OFDM 到 OFDMA 

与 使 用 免 许 可 证 ISM 频带 的 802. 11 不 同 ，WiMAX 在 物理 层 中 使 用 更 宽 的 2~ 11CHz 和 10 ~66CHz 
需要 许可 证 的 频谱 。 最 初版 本 的 WiMAX 工作 在 10 ~ 66 GHz。 工作 在 如 此 高 频率 使 它 具 有 提供 更 高 可 
用 融 宽 的 优势 ， 但 信号 也 很 容易 受到 障碍 物 的 影响 。 因 此 ，WiMAX 需要 以 较 高 的 成 本 部 署 大 量 基 站 来 
规避 障碍 物 。 更 高 版 本 的 WiMAX 支持 2~11CHz 的 频率 ， 其 中 有 些 频带 需要 许可 证 而 另 一 些 是 免 许可 
证 的 。 由 于 较 低 的 频率 ， 部 署 也 变 得 更 容易 而 且 更 便宜 。 为 了 让 WiMAX 设备 能 够 避免 与 运行 在 相同 
频率 范围 内 的 其 他 技术 设备 产生 和 干扰， 该 标准 提供 动态 频率 选择 方案 。 此 外 ，WiMAX 支持 网 状 模式 使 
用 户 站 点 可 以 从 另 一 个 站 点 获得 数据 。 网 状 模式 可 以 简化 WiMAX 的 部 署 ， 因 为 可 以 在 基站 与 另 一 个 
用 户 之 间 通 信 出 现 障 碍 的 地 方 将 用 户 站 点 部 署 为 中 继 站 。WiMAX 在 其 物理 层 支持 OFDM 和 一 个 新 的 称 
为 OFDMA ( 正 交 频 分 多 址 ) 的 方案 ， 它 为 了 多 址 访问 将 子 载波 分 配给 多 个 用 户 。 使 用 OFDMA ， 多 个 
用 户 就 可 以 同时 在 不 同 的 子 载波 上 上 访问 信道 ; 对 于 WLAN， 人 情况 就 不 同 ， 它 使 用 CSMAZCA 进行 介质 
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访问 

OFDMA 在 时 间 域 中 提供 的 资源 是 以 符号 的 形式 管理 的 ， 而 在 频 域 中 是 以 子 载波 和 进一步 划分 的 子 
信道 来 管理 的 。 与 在 频 域 中 迎 和 辑 分 区 中 的 子 信道 相 比 ， 子 载波 是 载波 更 细 粒 度 的 单位 。 最 小 的 频率 时 
间 资 源 单位 是 一 个 包含 48 个 数据 子 载波 和 持续 两 个 符号 用 于 下 载 或 三 个 符号 用 于 上 上传 〈 在 强制 PUSC 
( 部 分 使 用 A 模式 下 ) 的 时 陈 。802. 16 PHY 支持 时 分 双 工 (TDD)、 频 分 双 丁 (FDD) 和 半 双 
[FDD 模式 虽然 在 概念 上 独立 于 OFDMA， 但 它们 都 可 以 与 OFDMA 一 起 工作 。TDD 是 WiMAX 的 
首选 ， 因 为 它 仅 需要 一 个 信道 支持 时 陀 并 能 调整 不 平衡 的 下 行 链 路 /上行 链 路 负载 。 相反，FDD 需要 的 
两 个 信道 分 别 是 DL 和 UL。 收发 器 的 设计 在 TDD 中 比 在 FDD 中 更 容易 

注意 ，WiMAX 在 下 FF 802. 16e-2005 标准 中 还 支持 移动 操作 ， 该 标准 支持 切换 和 速 虚 可 达 75mile/h 
的 漫游 。 此 操作 工作 在 较 低 的 频率 (2.3 ~2.56Hz)， 能 让 移动 设备 在 周转 移动， 即使 在 设备 和 基站 之 间 
存在 障碍 也 是 如 此 。 移动 设备 需要 OFDMA 以 便 更 细致 地 利用 子 信 和 道 并 减少 和 干扰， 移动 应 用 WiMAX 与 
流行 的 3G 及 其 下 一 代 3GPP 竞争 ,但 谁 将 赢得 这 场 比赛 日 前 仍 不 清楚 。 尽 管 到 目前 为 止 3G 已 经 遍布 
世界 各 地 ,但 WiMAX 具有 更 高 的 数据 速率 ， 即 高 达 75Mbps， 其 基站 可 以 覆盖 半径 为 30 公里 的 区 域 
日 前 大 多 数 笔记 本 计算 机 既 没有 配备 WiMAX 也 没有 配置 3G 上 网 ， 所 以 这 将 是 第 一 个 让 WiMAX 流行 
的 潜在 市 场 

IEEE 802. 16e 标准 支持 软 、 硬 切换 rr en 这 意味 着 ， 一 
个 新 的 连接 建立 之 前 必须 拆除 旧 的 连接 。 硬 切换 简单 ， 对 于 数据 应 ] 经 足够 了 。 软 切换 ， 即 二 
个 新 的 连接 可 以 在 旧 的 连接 拆除 之 前 建立 ， 这 样 因 交换 机 产生 的 Ds hey 因此 ， 软 切换 更 适合 于 
时 间 上 有 严格 要 求 的 应 用 

与 用 于 短 距 离 通 信 的 1 802. 11 不 同 ，WiMAX 主要 适用 于 城 域 网 ， 因 此 必须 控制 所 有 到 /来 自 设 备 的 
数据 ， 以 避免 出 现 同步 问题 。 下 一 节 将 描述 WiMAX 在 TDD 模式 下 的 帧 结构 ， 描 述 上 上 行 链 路 上 (其 连 
接 填 满 了 帧 ) 的 5 个 调度 服务 类 ， 以 及 基站 MAC 数据 包 流 的 详细 情况 。 

TDD 子 帧 

图 3-38 显示 在 TDD 下 的 帧 结构 ， 其 中 包括 1) 用 于 控制 消息 的 UL-MAP 和 DL-MAP; 2) 上 行 链 路 
和 下 行 链 路 数据 子 帧 。 带宽 分 配 算法 确定 用 于 下 行 链 路 和 上 上 行 链 路 的 调度 时 险 ， 并 指示 在 UL-MAP 和 
DL-MAP 消息 中 的 调度 安排 。 所 有 UL-MAPZDL-MAP 和 数据 子 帧 由 很 多 OFDMA 时 际 组 成 ， 其 中 一 个 时 
际 就 是 在 上 行 链 路 由 3 个 OFDMA 符号 组 成 的 一 个 子 信 道 ， 在 下 行 链 路 由 2 个 OFDMA 符号 组 成 的 一 个 
子 信道 。 这 种 模式 称 为 PUSC 〈 子 信道 部 分 使 用 ) ， 即 802. 16 中 的 强制 模式 。 


























DL_MAP, | DL MAP, DL MAP,,, 
UL_MAP,) UL_MAP， UL_MAP,,, 
帧 控制 
下 行 链 路 子 帧 
上 行 链 路 子 帧 
帧 ，， 帧 ， 帧 ,， 
图 3-38 TDD 子 帧 结构 
上 行 链 路 调度 类 


802. 16e-2005 标准 目前 支持 5 种 上 行 调度 类 ， 即 非 请 求 允 许 服 务 (UGS)、 实 时 轮 询 服 务 (rtPS)、 
非 实时 轮 询 服务 (nrtPS) 、 尽 力 而 为 (BE) ， 以 及 最 近 才 提出 的 扩展 实时 轮 询 服务 (ertPS) 。 表 3-9 总 
结 了 这 些 服务 类 的 特点 ， 这 与 DOCSIS 中 的 非常 相似 。 每 个 服务 类 定义 不 同 的 数据 处 理 机 制 进行 服务 


中 
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区 分 UGS 具有 最 高 优先 级 ， 在 每 个 间隔 为 带宽 保证 预 留 了 固定 数量 的 时 阶 。rtPS、nnPS 和 BE 依靠 
定期 轮 询 从 基站 获得 传输 机 会 ， 而 ertPS 像 UGS 一 样 ， 预 留 了 固定 数量 的 时 际 并 在 竞争 期 间 通知 BS 有 
美 可 能 的 更 改 。 如果 nrtPS 和 BE 没有 从 轮 询 中 获得 足够 的 带宽 ， 它 们 两 者 都 将 根据 预先 设 定 的 优先 级 
部 争 传输 机 会 。nrtPS 服务 总 是 优先 于 BE 


表 3-9 服务 等 级 和 相应 的 QoS 参数 















































特征 UGS ertPS rtPS nrtPS BE 
请 求 尺 才 | 固定 的 固定 但 是 可 变 的 可 变 的 可 安 的 可 密 的 
单 播 轮 询 | N N Y VY N 
人 | N Y N Y Y 
最 小 速率 i N | Y Y | ¥ N 
| 吉大 速率 ' Y Y | Y Y 
延迟 Ty Y 表 | N N 
优先 级 1 N Oy Y 二 时 
| 者 | 疯 频 “ 带 有 者 视频 上 天 有 韦 件 
后 由 A el ry i rr FTP WebiN Ns 
MAC 层 中 的 详细 数据 包 流 


BS MAC 上 行 链 路 和 下 行 链 路 中 完整 的 数据 包 流 说 明 如 下 。 对 于 下 行 链 路 处 理 的 流 ， 在 网 络 层 中 
的 IP 和 ATM 数据 包 都 通过 封装 / 解 封装 MAC 头 部 转换 成 来 自 / 到 MAC 会 聚 子 屋 (CS)。 根 据 地 址 
和 端 T1， 将 数据 包 分 类 为 一 个 服务 流 的 对 应 连接 标识 符 ， 进 一 步 决 定 QoS 参数 。 然 后 进行 分 段 和 打包 
形成 一 个 基本 的 MAC 协议 数据 单元 (PDU)， 其 大 小 要 适应 信道 质量 ， 随 后 将 结果 PDU 分 配 到 队列 
中 ,一 旦 分 配 开始 ， 带 宽 管 理 单元 安排 数据 突 发 传输 以 便 填充 帧 。MAP 生成 器 然后 将 安排 〈 即 分 配 结 
果 ) 写 人 MAP 消息 中 并 当 在 时 间 帆 中 发 送 /接收 调度 数据 时 通知 PHY 接口 。 在 它们 发 送 到 PHY 之 
前 ， 对 PDU 进行 加 密 、 头 部 校 验 和 以 及 帧 的 CRC 计算。 上行 链 路 处 理 流 与 下 行 链 路 相似 ， 除 了 基站 
也 会 接收 单独 的 或 撒 之 带宽 请 求 外 。 在 上 述 操作 中 ， 很 明显 带宽 管理 及 带宽 分 配 算 法 是 至 关 重 要 的 ， 
震 上 要 精心 设计 以 提高 系统 的 性 能 ， 


历史 演变 : 3G、LTE 和 WiMAX 的 比较 

IEEE 802. 16e-2005 标准 ， 也 称 为 移动 WiMAX， 旨 在 支持 移动 应 用 ,正如 文中 提 到 的 ，WiMAX 县 
有 高 数据 传输 速率 (75Mbps) 和 远 传输 距离 (30 英里 ) ， 而 3G 只 有 约 3Mbps 的 数据 传输 速率 。 但 是 ， 
3C 能 够 让 过 去 使 用 蜂 帘 电话 的 人 成 为 自己 的 用 户 。 

WiMAX 最 终 将 成 为 移动 应 用 的 流行 解决 方案 吗 ? 它 已 经 得 到 了 多 家 厂商 的 认可 。 例 如， 英特尔 公司 
已 经 将 移动 WiMAX 功能 集成 到 了 其 下 一 代笔 记 本 计算 机 的 Wi-Fi 芯片 中 。3G 技术 也 在 演变 一 一 下 一 代 
LTE (长 期 演进 ) 由 第 三 代 合作 伙伴 计划 (www. 3gpp. org) 开发 ， 上 行 链 路 可 以 达到 300 Mbps 而 下 行 链 
路 可 以 达到 100 Mbps， 假 定 3C 技术 已 经 有 大 规模 的 3G 基础 设施 时 它 就 可 以 迅速 部 署 。IEEE 还 在 IEEE 
802. 16m 标准 中 采用 了 WiMAX 2.0， 进一步 提高 数据 传输 速率 ， 为 移动 用 户 提 供 100Mbps， 为 国定 应 用 
提供 1Cbps。 竞 争 是 激烈 的 ,与 此 同时 ， 由 于 实施 延迟 和 互 操作 性 认证 方面 的 原因 ， 移 动 WiMAX 部 署 仍 
然 不 广泛 。 这 里 进入 市 场 的 时 间 是 关键 因素 ,决定 着 移动 WiMAX 是 否 将 在 市 场 中 取得 成 功 


3.5 桥接 

网 络 管理 员 通 常 将 单独 的 局 域 网 连接 成 互联 的 网 络 以 便 延 伸 局 域 网 或 改善 其 管理 工作 。 工 作 在 链 
路 层 的 互联 设备 称 为 MAC 网 桥 或 网 桥 。 它 通常 称 为 第 2 层 交 换 机 、 以 太 网 交换 机 ， 或 者 简称 交换 机 ， 
稍 后 我 们 将 解释 基 原 因 。 网 桥 互联 局 域 网 就 如 同 它 在 同一 个 局 域 网 内 一 样 。IEEE 802. 1D 标准 规定 其 
如 何 操作 。 下面 我 们 将 详细 介绍 。 
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几乎 所 有 的 网 桥 都 是 透明 网 桥 ，。 因 为 互联 局 域 网 上 的 所 有 站 点 察觉 不 到 它们 的 存在 。 发 射 靖 点 只 
需 将 目的 MAC 地 址 封装 到 帧 中 ， 发 送 帧 ， 如 同日 的 地 址 是 在 同一 个 局 域 网 内 。 网 桥 自 动 转发 该 帧 。 男 
一 类 网 桥 是 源 路 由 网 桥 。 在 这 种 网 桥 中 ， 站 点 应 该 能 够 发 现 路 由 ， 并 将 转发 信息 封装 到 帧 中 以 指示 网 
桥 如 何 转发 ， 由 于 以 太 网 主导 着 局 域 网 市 场 ， 所 以 上 日 前 市 场 上 很 少 看 到 这 种 类 型 的 网 桥 ， 因 此 这 里 我 
们 仅 介绍 透明 网 桥 

网 桥 且 有 局 域 网 连接 的 端口 。 每 个 端口 工作 在 混杂 模式 ， 这 意味 着 它 能 接收 与 它 连 接 的 局 域 网 上 
的 每 一 帧 ， 市 不 管 日 的 地 址 是 什么 。 如 果 需 要 将 帧 转发 到 另 一 个 端口 上 ， 网 桥 将 完成 相应 的 工作 


3.5.1 自学 习 

奥秘 之 处 就 在 于 网 桥 如 何 知道 是 天 应 该 转发 色 达 的 帧 以 及 应 该 向 哪个 端口 转发 。 图 3-39 说 明了 网 
桥 的 操作 。 网 桥 维 护 一 张 地 址 表 ， 又 称 为 转发 表 ， 表 中 存储 MAC 地 址 到 端口 号 之 间 的 映射 ， 最 初 ， 地 
址 表 是 空 的 ， 网 桥 不 知道 任何 站 点 的 位 置 。 假设 有 具有 MAC 地 址 为 00 -32 -12 -12 -6D-AA 的 站 点 1 
向 与 MAC 地 址 为 200 -1C -1207 -12 -DD -3E 的 站 点 2 发 送 一 个 帧 由 于 站 点 工 连 接 到 网 桥 的 端口 3 
二 ， 所 以 网 桥 将 在 端口 3 上 接收 帧 . 通过 检查 帧 的 源 地 址 字段 ， 网 桥 学 习 到 MAC 地 址 00 -32 -12 - 
12 -6D - AA 位 于 端口 3 所 连接 的 网 段 上 上 ， 然 后 将 学 习 到 的 知识 保持 在 地 址 表 中 。 但 是 ， 它 仍然 不 知 
道 目的 地 址 为 00 -=1C=-1207-12-DD=-3E 所 在 的 地 方 。 为 了 确保 目的 地 可 以 接收 到 帧 ， 它 就 将 帧 广 
播 到 每 一 个 端口 上 ， 除 了 发 送 帧 的 源 端 口外 。 假 设 稍 后 站 点 2 向 某 一 地 方 发 送 了 一 个 帧 。 网 桥 将 得 知 
其 地 址 来 自 端 112 并 也 将 这 一 事实 保存 到 地 址 表 中 。 随 后 发 送 到 站 点 2 的 帧 都 将 只 转发 到 端口 2， 而 不 
圭 概 广播。 这 种 过 程 称 为 自学 习 ， 





MAC 地 址 : 02-12-12-56-3c-21 MAC 地 址 : 00-32-11-ab-54-21 
ssesass 
[LID 
中 继 器 集线器 目的 地 MAC 地 址 ; 00-1e-6f-12-dd-3e 








由 
MAC 地 址 : 00-32-12-12-33-1c 端口 3 局 工作 站 1 


MAC 地 址 : 00-32-12-12-6d-aa 


















r 作 站 2 1 
< MAC 地 址 端口 
MAC 地 址 : 00-1c-6F12-dd-3e 这 里 是 工作 站 2 的 表 项 00-32-12-12-6d-aa 3 
00-1c-6f-12-dd-3e 闹 
00-32-11-ab-54-21 1 
02-12-12556=3c-21 1 
00-32-12-12-33-lc 1 
| 
图 3-39 网 桥 操作 : 自学 习 
自学 习 极 大 地 节省 所 有 其 他 网 络 分 段 的 带宽 并 减少 冲突 的 概率 。 当 然 ， 如 果 站 点 2 仍然 保持 沉默 ， 


网 桥 就 无 法 知道 它 到 底 在 哪里 ， 将 广播 发 送 到 站 点 2 的 每 一 个 帧 ， 但 这 种 情况 很 少 发 生 。 典 型 情况 是 ， 
站 点 2 在 接收 到 一 个 发 送 给 它 的 帧 后 做 出 响应 ， 网 桥 就 可 以 从 响应 中 得 知 站 点 2 在 哪里 . 

有 时 某 个 站 点 会 重新 定位 或 删除 ， 使 得 它 在 地 址 表 中 的 表 项 老化 过 期 。 可 以 应 用 一 种 老化 机 制 来 
解决 这 个 问题 。 如 果 在 特定 的 时 间 内 一 直 林 监听 到 下 个 站 点 ， 那么 其 表 项 将 过 期 。 随 后 发 往 该 站 的 帧 
将 被 洪 泛 ， 直 到 再 次 学 习 到 它 的 存在 为 止 ， 
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如 果 目 的 地 址 是 组 播 或 广播 地 址 ， 那 么 网 桥 将 帧 转发 到 所 有 端口 上 ， 除 了 帧 来 和 目的 端口 之 外 - 但 
te a dd an 
册 协 议 ) 。GMRP 是 通用 属性 注册 协议 (GARP) 的 一 个 子 集 。 当 启用 该 浴 议 时 ， 网 桥 就 可 以 注册 组 播 
地 址 的 目的 接收 者 的 需求 nb nat re erie 如 果 在 给 定 的 路 径 上 没 
有 发 现 注 册 信 息 ， 那 么 就 进行 组 播 裁剪 以 切断 这 条 路 经 ,通过 这 一 机 制 ， 组 播 帧 只 被 转发 到 存在 预期 
ee 

， 在 图 3-39 中 有 一 个 称 为 中 继 器 集线器 的 设备 ， 或 常 简称 为 集线器 。 该 设备 是 第 1 层 设 备 ， 
条 荐 它 具 是 人 复 信号 的 所 上 和 是 时、 将 信号 舍 所 到 除了 浙 红 中 之 外 的 所 有 六 中， 但 并 不 了 角 
毕 范 ， 帧 在 物理 层 只 不 过 是 一 系列 物理 层 的 编码 位 


历史 演变 : 直通 与 存储 转发 
回想 一 下 目的 地 址 (DA) 字段 是 除了 前 导 符 和 SFD 字段 之 外 的 帧 中 的 第 一 个 字段 。 在 地 址 表 中 

查找 DA， 网 桥 就 能 确定 向 哪里 转发 帧 。 网 桥 在 完全 接收 帧 之 前 就 可 以 开始 向 目的 端口 转发 帧 。 这 种 操 
作 称 为 直通 转发 。 另 一 方面 ， 如 果 网 桥 只 有 在 完全 接收 帧 后 才 转 发 ， 其 操作 就 称 为 存储 转发 。 这 两 种 

方式 之 间 的 区 别 有 其 历史 原因 。1991 年 以 前 ， 交 换 机 无 论 是 在 IEEE 标准 中 还 是 在 市 场 上 都 称 为 网 桥 ， 
早期 的 网 桥 以 存储 转发 方式 工作 。1991 年 ，Kalpana (卡尔 帕 纳 ) 公司 销售 名 为 “交换 机 ”的 第 一 

直通 转发 网 桥 以 区 分 于 其 他 产品 的 存储 转发 网 桥 ， 并 宣布 由 于 采用 直通 操作 而 降低 了 延迟 。 然 而 在 存 
储 转 发 和 直通 转发 之 间 却 引起 了 很 大 的 争论 。 表 3-10 总 结 了 这 两 种 机 制 


表 3-10 存储 转发 和 直通 转发 的 对 比 


























存储 转发 直通 转发 
发 送 时 间 完全 接收 之 后 再 发 送 一 个 由 在 完全 接受 一个 帧 之 前 可 以 发 送 帧 4 
和 钙 衣 | 稍 大 一 些 的 延迟 可 能 具有 稍 小 一 些 的 延迟 | 
广播 /组 插 用 于 广播 或 组 播 帧 没有 问 是 一 般 不 可 能 广播 或 组 播 由 
错误 检验 可 以 及 时 检验 FCS 检验 FCS 可 能 太 迟 了 
流行 性 在 市 场 上 很 常见 在 市 场 上 不 太 常见 
四 如 果 LAN 的 出 端口 或 给 出 队列 被 其 他 的 帧 占用 ， 那 么 即使 是 在 一 直通 交换 内 帧 也 不 能 转发 


网 桥 与 交换 机 对 比 

按照 Kalpana 的 命名 规范 ， 无 论 网 桥 操作 是 存储 转发 还 是 直通 转发 ， 它 们 都 是 以 “交换 机 ”的 名 
字 进 行销 售 。IEEE 标准 仍然 采用 “网 桥 ” 这 个 名 字 ， 并 明确 强调 这 两 个 术语 是 同义词 。 大 多 数 交 换 机 
目前 仅 提供 存储 转发 ， 因 为 直通 转发 没有 明显 的 优点 ， 如 表 3-10 所 示 。 术 语 “ 交 换 机 ”也 常用 于 根据 
来 自 上 层 的 信息 做 出 转发 决策 的 设备 上 。 这 就 是 目前 我 们 会 看 到 L3 交换 机 、L4 层 交 换 机 和 L7 层 交 换 
机 的 原因 。 


开源 实现 3.7: 自学 习 网 桥 

综述 

交换 机 维护 一 个 转发 数据 库 ， 用 以 确定 帧 应 转发 给 哪个 端口 。 数据 库 的 学 习 过 程 是 自动 的 以 便 
最 小 化 管理 工作 。 这 就 是 我 们 称 它 为 自学 习 的 原因 。 自 学 习 的 主要 思想 很 简单 : 如 果 传 入 帧 的 源 
MAC 地 址 4A 来自 端 口 n， 这 意味 着 具有 MAC 地 址 的 主机 可 以 通过 端口 峰 到 达 ， 发 送 给 4 的 帧 将 由 交 
换 机 转发 给 端口 n。 我 们 将 介绍 在 Linux 内 核 中 实现 自学 习 机 制 的 源 代 码 ，Linux 主机 也 可 以 充当 交 
换 机 (或 网 桥 )， 

框图 

图 3-40 演示 了 自学 习 过 程 ， 其 中 转发 数据 库 是 用 散 列 表 来 实现 的 。 如 果 存 在 散 列 冲突 ， 相 同 桶 的 
表 项 会 存储 在 一 张 链表 上 。 

当 带 有 源 MAC 地 址 4 的 帧 进入 交换 机 时 ， 交 换 机 计算 4 的 散 列 值 以 确定 表 项 在 转发 数据 库 中 的 位 
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置 ， 并 尝试 在 该 桶 中 找到 A (也 许 遍历 链表 )。 如 果 4 已 经 在 数据 库 中 ， 那 么 原来 的 表 项 将 被 删除 ， 这 
意味 着 4 相应 的 端口 需要 更 新 ”最 后 ，4 和 帧 的 源 端 口 将 记录 在 转发 表 中 。 








hash[br mac _hash( Ai 


SrCMAC 三 人 A 








转发 数据 库 
图 3-40 转发 数据 库 的 自学 习 过 程 


数据 结构 

最 重要 的 数据 结构 就 是 转发 数据 库 ， 它 定义 在 net bridge 结构 中 (参见 br private.h)。 结 
构 中 的 散 列 字段 就 是 散 列 表 ， 其 定义 如 下 : 

struct hlist head hash[BR HASH SIZE]; 

在 链表 中 的 表 项 包含 MAC 地 址 与 端口 之 间 的 关联 ， 其 定义 如 下 。 这 里 mac 就 是 MAC 地 址 ，dst 
是 相应 的 交换 机 端口 。 因为 一 台 主 机 可 能 连接 到 不 同 的 端口 ， 如 果 ageing timer 过 期 ， 该 表 项 就 应 
该 删除 或 将 变 成 过 期 。 


struct net bridge fdb entry 


{ 


struct hlist node hilist; 
struct net bridge port HSEy 
struct rcu head 了 CR 
atomic t use count; 
unsigned long ageing timer; 
mac_addr addr; 
unsigned char is local; 
unsigned char is static; 
上 
算法 的 实现 


Linux 在 net/bridge/br_fdb.c 中 实现 查找 表 ， 其 中 fdb 标识 转发 数据 库 。 查找 过 程 将 提取 
MAC 地 址 来 标识 数据 库 中 的 一 个 表 项 ， 并 计算 散 列 函数 br mac hash () 以 确定 正确 的 散 列表 桶 。 下 
面 的 代码 段 br fdb.c 说 明 如 何 查找 表 


struct net bridge fdb entry * br fdb get (struct 
net bridge *br, const unsigned char *addr) 


{ 





struct hlist node *h; 

struct net bridge fab entry *fdb; 
hlist for each entry rculfdb,h, 
&br->hash[br mac hash(addr)] ,hlist) { 
if (!compare ether addr (fdb->addr.addr, 


addr)) { 
if (unlikely(has expired(br, fdb))) 
break; 
return fdb; 


} 
} 


return NULL; 


} 

宏 hlist for each entry rcu() 搜 索 由 &br - >hash [br mac hash (addr)] 指针 指向 的 链 
表 ， 以 便 找到 在 net bridge fdb entry 中 的 正确 表 项 ， 其 中 还 包含 将 要 转发 的 端口 。 这 里 rcu 
(Read-Copy-Update) ( 读 取 一 复制 -更 新 ) 是 在 内 核 2.5 版 本 的 开发 过 程 中 添加 到 Linux 内 核 中 的 同步 
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机 制 ， 用 来 提供 线程 之 间 的 互 斥 。 用 老化 机 制 查找 以 避免 搜索 。 如 果 一 个 表 项 已 经 过 期 ， 搜 索 就 被 忽 
略 。 如 果 网 络 拓扑 发 生变 化 ， 这 种 机 制 就 更 新 数据 库 

当 接 收 到 一 个 帧 时 ， 就 将 一 个 新 表 项 插入 转发 数据 库 中 .这 就 是 网 桥 运行 中 的 自学 习 机 制 。 本 代 
码 段 也 在 br fdb.c 中 ， 如 下 所 示 


static int fdb insert (struct net bridge *br, struct 
net bridge port *source, const unsigned char *addr) 


{ 
struct hlist head *head = g&br->hash[br mac 
hash(addr)]; struct net bridge fdb entry *fdb; 
if (!is valid ether addr (addr)) 
return -EINVAL; 
fdb = fdqb find(head, addr); 
i¥E VEY { 
if (fdb->is local) 
return ‘0; 
fdb delete (fdb); 
} 
if (!fdb create (head, source, addr, 1)) 
return -ENOMEM; 
return 0， 
} 


插入 是 以 在 转发 数据 库 中 查找 到 达 的 MAC 地 址 开始 的 -如果 找到 一 个 表 项 ,就 将 它 赫 挨 成 新 的 表 
项 ; 否则 ， 就 将 新 的 表 项 插入 数据 库 中 

练习 

1. 跟踪 源 代 码 ， 并 了 解 老化 定时 器 是 如 何 工作 的 

2. 在 Linux 内 核 源 代码 的 fdb 散 列 表 中 查找 ， 看 能 找到 多 少 表 项 


3.5.2 生成 树 协 议 

随 着 一 个 桥接 网 络 拓扑 变 得 更 庞大 和 更 复杂 ， 网 络 管 理 员 可 能 无 意 中 会 在 拓扑 中 创建 了 一 个 回路 
这 种 情况 是 不 需要 的 ， 因 为 帧 可 能 循环 流动 并 且 也 可 能 使 地 址 表 变 得 不 稳定 。 例如， 考虑 以 下 由 两 个 
端口 交换 机 形成 一 个 回路 并 通过 某 个 站 点 将 帧 广播 到 回路 上 后 所 导致 的 严重 问题 。 每 台 交 换 机 将 接收 
到 的 师 二 广播 到 其 他 交换 机 上 ， 使 它 轩 绕 回 路 无 限 地 循环 下 去 。 

为 了 解决 回路 问题 ，IEEE 802. 1D 制定 了 一 个 生成 树 协议 (STP) 以 消除 在 桥接 网 络 上 出 现 的 回 
路 ， 因 其 实现 简单 ， 所 以 几乎 所 有 的 交换 机 都 支持 该 协议 。 图 3-41 是 一 个 形成 生成 树 的 简单 例子 ， 步 
又 如 下 
1 ) 最 初 ， 给 每 台 交 换 机 和 端口 分 配 一 个 由 可 管理 的 优先 级 值 和 交换 地 址 (或 端口 标识 符 的 端口 
组 成 的 标识 符 。 为 了 简单 ， 这 里 我 们 使 用 1 ~6 的 标识 符 
2) 每 条 链 路 指定 了 一 个 与 链接 速度 成 反比 的 开销 。 这 里 我 们 假定 所 有 链 路 开销 为 1， 

3) 具有 最 小 标识 符 的 交换 机 充当 根 。 在 交换 机 之 间 通 过 交换 配置 信息 帧 来 选举 根 

4) 将 每 个 局 域 网 连接 到 当 前 有 效 拓扑 中 的 某 台 交换 机 的 一 个 端口 上 。 局 域 网 传输 来 自 根 的 帧 所 经 
过 的 端口 称 为 指定 端口 (DP) ， 而 该 端口 所 在 的 交换 机 称 为 指定 网 桥 。 交换 机 从 根 交换 机 接收 帧 所 经 
过 的 端口 称 为 根 端口 (RP) 

5) 配置 信息 以 桥 协 议 数据 单元 (BPDU 网 桥 协 议 数据 单元 ) 的 形式 周期 性 地 从 根 向 下 传播 ， 其 中 
目的 地 址 是 为 交换 机 保留 的 组 插 地 址 01 -80 = c2 -00 -00 -00。BPDU 帧 包含 根 标 识 符 、 传 输 交换 机 
标识 符 、 传 输 端口 标识 竹 和 从 根 开始 的 路 径 开销 等 信息 。 

6) 每 台 交 换 机 可 以 根据 接收 到 的 BPDU 携带 的 信息 进行 自我 配置 。 配 置 规则 ; 

。 如 打通 过 与 BPDU 中 通告 的 路 径 开销 相 比较 ， 交 换 机 发 现 自己 可 以 提供 一 个 更 低 路 径 开 销 ， 屠 

么 它 将 试图 通过 传输 县 有 更 低 路 径 开销 的 BPDU 指定 一 个 网 桥 . 
es 在 出 现 歧 义 的 情况 下 ， 如 多 种 选择 具有 相同 的 井 销 ， 就 选择 具有 最 低 标识 符 的 交换 机 或 端口 作 
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为 指定 网 桥 (或 端口 )。 

e 如 果 交 换 机 发 现 自己 有 一 个 比 日 前 的 根 更 低 的 标识 符 ， 它 就 试图 通过 传送 带 有 其 标识 符 作 为 根 
标识 符 的 BPDU 成 为 新 的 根 。 

e 注意 交换 机 并 不 转发 任何 进入 的 BPDU 信息 ， 但 会 创建 新 的 BPDU 以 携 代 它 的 新 状态 给 其 他 的 
交换 机 设备 。 








交汇 机 i 交换 机 4 交换 机 id-6 
图 3-41 上 沉 有 回路 的 桥接 网 络 
7) 除了 DP 和 RP 外 ， 所 有 其 他 端口 都 被 阻塞 。 不 允许 被 阻塞 的 端口 转发 或 接收 数据 帧 ， 但 阻塞 
端口 仍 继续 监听 BPDU 看 它 能 否 再 次 激活 。 图 3-41 还 给 出 了 产生 的 生成 树 。 读 者 最 好 能 够 跟 踊 学 习 该 
过 程 。 总 之 ， 协 议 非常 有 效 ， 它 能 根据 可 能 的 拓扑 变化 动态 地 更 新 生成 树 


开源 实现 3.8: 生成 树 

利用 进入 (ingress) BPDU 的 信息 更 新 生成 树 配置 ， 如 本 书 所 述 。 当 网 桥接 收 到 一 个 BPDU 时 ， 它 
首先 通过 解析 帧 建立 一 个 包含 BPDU 信息 的 结构 ， 然 后 根据 BPDU 信息 更 新 网 桥 配 置 。 之后， 选择 新 
根 并 确定 指定 的 端口 ， 病 汪 机 护 各 且 半 前 显 笠 消 怒 罚 邦 ， 


框图 
3-42 说 明了 BPDU 帧 处 理 的 调用 流程 。 流程 基本 上 按照 上 面 介绍 的 顺序 进行 。 我们 下 面 将 详细 
描述 每 一 个 函数 调用 。 


br_stp_rey 
br_received_config_bpdu 














br_record_config_information | br_configuration_update | br_port_state_selection 


br_root_selection | br_designated_port_selection 


图 3-42 处理 BPDU 帧 的 调用 流程 
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数据 结构 

br config bpdu 是 最 重要 的 结构 (在 net/bridge/br private stp.h 中 定义 ) ， 经 过 分 析 帧 
后 从 BPDU 帧 中 导出 BPDU 信息 。 在 结构 中 包含 以 下 字段 ， 并 且 这 些 字段 可 以 直接 从 BPDU 帧 中 的 协 
议 字段 中 映射 出 。 


struct br config bpau 


{ 


unsigned topology change:1; 
unsigned topology change ack:1; 
bridge id EOGt; 

int root path cost; 

bridge id bridge id; 

port id port id; 

int message age; 

int max age; 

jnt hello time; 

jn forward delay; 


}; 

用 接收 到 的 BPDU 帧 更 新 net bridge 结构 (定义 在 net/bridge/br private. h) 中 的 全 局 
网 桥 配 置 。 这 种 结构 不 仅 用 于 生成 树 协议 ,也 可 用 于 其 他 协议 。 它 还 包含 了 网 桥 需 要 的 全 部 数据 结构 ， 
即 转发 数据 库 。 因 此 ， 在 本 节 暂 不 讨论 。 

算法 实现 

在 br stp bpdu.c (在 net/bridge 目录 下 ) 中 的 br stp rcv() 函 数 处 理 有 关 生 成 树 配 置 的 
更 新 。 函 数 解 析 BPDU 并 构建 BPDU 信息 的 br config bpdu 结构 。 然 后 将 结构 和 端口 信息 传递 给 
br stp.c 中 的 函数 br received config bpdu()。 这 个 函数 首先 调用 br record config in- 
formation() 在 端口 注册 BPDU 信息 ， 然 后 调用 br_ configuration update() 更 新 网 桥 配 置 代码 段 
下 ;: 

void br received config bpdul(struct net bridge port 


*p; struct br config bpadu *bpdu) 


{ 





// Skip some statements here 

if (br supersedes port info(p, bpdu)) { 
br record config information(p, bpadu); 
br configuration update (pr); 

br port state selection (br); 

// Skip some statements here 


} 

配置 更 新 后 ，br port state selection() 中 的 端口 状态 根据 端口 分 配 的 角色 也 进行 更 新 。 例 
如 ， 可 以 阻塞 端口 以 避免 回路 。 注 意 ， 可 以 从 多 处 调用 br configuration update () 。 比 如 ， 系 统 
管理 员 可 以 执行 命令 禁用 端口 或 更 改 路 径 开销 。 这 种 情况 也 将 触发 网 桥 配 置 的 更 新 

函数 br _configuration update () 直接 调用 br root _ selection () 和 br designated port 
_selection() 函数 以 便 分 别 选择 一 个 新 的 根 并 确定 指派 的 端口 。 如果 根 或 指派 的 端口 更 改 了 了， 那么 
路 径 开销 也 要 更 新 。 

练习 

1， 简要 描述 BPDU 帧 是 如 何 沿 着 生成 树 的 拓扑 传播 的 - 

2. 研究 br root selection () 函数 学 习 如 何 选择 一 个 新 根 ， 


3. 5.3 虚拟 局 域 网 

一 旦 将 一 台 设 备 连 接 到 一 个 局 域 网 二 ， 它 号 属于 该 局 域 网 。 即 局 域 网 的 部 署 完全 由 物理 连接 来 
人 确定。 在 某 些 应 用 中 ， 我 们 需要 在 物理 部 署 之 上 构建 逻辑 连接 。 例 如 ， 我 们 想 要 交换 机 的 一 些 端 11 
属于 一 个 局 域 网， 而 另 一 些 端口 则 属于 另 一 个 局 域 网 ， 此 外 ， 我 们 可 能 将 多 台 交 换 机 的 端口 分 配给 
辐 一 个 局 域 网 而 将 所 有 其 他 端口 分 配给 另 一 个 局 域 网 。 一 般 来 讲 . 我 们 在 网 络 部 署 中 需要 这 种 灵 
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活性 

虚拟 局 域 网 (VLAN) 可 以 为 局 域 网 提供 逻辑 配置 管理 员 可 以 直接 利用 管理 工具 工作 而 不 改变 
底层 网 络 拓扑 的 物理 连接 性 。 此 外 ， 通 过 VLAN 隔离 ， 可 以 将 交换 机 的 端口 分 配给 不 同 的 VLAN， 每 
一 个 就 像 使 用 物理 上 隔离 的 交换 机 一 样 ， 这 样 做 ， 我 们 可 以 提高 网 络 安全 性 并 节省 带宽 ， 因 为 流量 ， 
特别 是 组 播 和 广播 流量 ， 限 制 在 它 所 属 的 一 个 特定 定义 的 虚拟 局 域 网 内 。 比 如 ,广播 帧 或 带 有 未 知 单 
播 目的 地 址 的 帆 会 出 现在 没有 VLAN 划分 的 交换 机 的 所 有 端口 二 ， 这 个 帧 不 仅 在 无 关 的 端口 上 消耗 佛 
帘 ， 市 且 也 会 让 恶意 用 户 监 控 它 。 通 过 将 端口 划分 到 多 个 VLAN 中 ， 帧 被 限制 在 所 要 发 向 的 由 端 日 组 
成 的 虚拟 局 域 网 内 。 

图 3-43 显示 了 一 个 实际 例子 以 说 明 VLAN 的 用 途 。 考 虑 两 个 子 网 : 140. 113. 88.0 和 140. 113. 241. 0， 
每 个 子 网 包含 多 个 站 点 。 如 果 我 们 想 要 将 这 两 个 子 网 与 一 台 路 由 器 连接 起 来 ， 可 以 按照 图 3-43 中 描述 
的 方式 部 署 网 络 。 


子 网 : 140.113 88.0 子 网 





: 140.113.2410 
























计算 机 





计算 机 计算 机 
图 3-43 没有 VLAN 的 两 台 交 换 机 的 部 署 
如 果 我 们 将 交换 机 配置 成 仅 带 有 两 个 VLAN, 那么 只 需要 一 台 交 换 机 就 够 了 。 将 路 由 器 连接 到 一 
个 属于 两 个 VLAN 的 端口 上 上 ， 并 配置 商 个 地 址 ， 每 个 用 于 一 个 子 网 。 在 这 种 情况 下 ， 路 由 器 称 为 单 辟 
路 由 器 ， 如 图 3-44 所 示 。 目 前， 许多 交换 机 ， 即 第 3 层 交 换 机 ， 有 了 能力 充当 根据 第 三 层 信息 转发 帧 的 
普通 路 由 器 。 利 用 虚拟 局 域 网 ， 管 理 员 可 以 将 端口 任意 分 成 多 个 IP 子 网 ， 这 对 于 网 络 管理 来 讲 非常 
方便 。 


子 网 : 140 113 88.0 


子 网 : 140.113.241.0 








计算 机 计算 机 
图 3-44 ”用 VLAN 和 单 臂 路 由 岩 部 畴 一 人 台 交 换 机 


二 
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行动 原则 : 虚拟 局 域 网 与 子 网 

虚拟 局 域 网 是 一 个 第 2 层 的 概念 ， 它 允许 网 络 管理 员 在 第 2 层 配置 连接 性 而 不 需要 重新 进行 物理 
布线 ， 例如， 交换 机 的 端 已 1 和 端口 2 可 以 配置 成 属于 同一 个 虚拟 局 域 网 ， 而 端口 3 和 端口 4 属于 另 
一 个 VLAN。 虽然 它们 都 是 在 同一 台 交 换 机 上 ， 但 连接 性 可 以 从 还 辑 上 进行 分 定 ， 在 同一 个 虚拟 局 域 
网 内 的 主机 在 没有 更 高 层 设 备 ， 特 别 是 路 由 器 时 ， 也 可 以 相互 通信 ， 虚 拟 局 域 网 限制 帧 可 以 到 达 的 范 
围 ( 仅 限于 一 个 虚拟 局 域 网 内 ) 

子 网 是 一 个 第 3 层 的 概念 。 在 子 网 内 的 主机 可 以 直接 相互 发 送 分 组 (也 和 包括 广播 分 组 )， 而 不 需要 
路 由 器 的 帮助 ， 这 两 个 术语 在 限制 广播 域 的 上 下 文中 类 似 ， 那 么 ,它们 有 什么 区 别 ? 

子 网 通过 将 主机 设置 成 具有 相同 前 级 的 JP 地 址 进行 配置 ， 这 里 由 子 网 掩 码 决 定 前 级 长 度 ， 相 比 
之 下 ， 虚 拟 局 域 网 是 在 一 种 第 2 层 设备 一 一 交换 机 上 配置 的 前 者 是 带 辑 的 ， 而 后 者 是 一 种 物理 分 
隔 。 因 此 ， 在 同一 个 VLAN 内 可 以 配置 多 介子 网 (例如 ， 连 接 到 同一 台 交 换 机 而 不 分 割 VLAN) ， 但 
在 逻辑 上 这 些 子 网 是 分 隔 的 ， 生生 二 和合 了， 但 一 个 第 2 层 的 广播 帧 ( 带 有 全 部 为 1 的 目的 MAC 地 
址 ) 仍然 可 以 达到 整个 虚拟 局 域 网 ， 这 种 情况 下 ， 最 好 在 交换 机 上 配置 多 个 VLAN， 在 物理 上 分 割 
广播 域 


op haciait reel raed 个 标准 从 配置 、 配 置信 息 的 发 布 和 
中 继 等 方面 描述 了 VLAN 体系 结构 框架 。 第 一 个 是 不 言 目 明 的 。 - -个 是 有 关 在 支持 VLAN 的 交换 机 
之 间 允 许 发布 VYLAN 成 员 信息 的 方法 。 第 个 是 处 理 如 何 分 类 和 转发 到 达 的 帧 ， 以 及 通过 添加 、， 修改 
或 删除 标签 修改 帧 的 过 程 。 我 们 接 下 来 讨论 标签 的 概念 

有 虚拟 局 域 网 成 员 可 以 基于 端口 、 
MAC 了 地址、 王子 网 、 协 议和 应 用 ， 每 个 帧 可 以 与 携带 VLAN 标识 符 的 标签 关联 起 来 ， 以 便 交 换 机 能 够 
谢 浊 而 各 本 个 汪 于 计生 全 条 的 分 类 但 是 Se rn 标签 帆 的 格式 在 
图 3-45 中 描述 ””。 一 个 虚拟 局 域 网 标识 符 有 12 位 ， 人 允许 VLAN 的 最 大 数量 为 4094 ( 即 2”-2)， 假定 
其 中 一 个 标识 符 保留 未 使 用 ， 另 一 个 是 用 来 表示 一 个 优先 级 的 标签 (参见 下 面 )， 


前 导 符 图 DA SA 


字 节 沁 1 0 6 3 2 2 42 - 1500 此 























图 3-45 标签 帧 的 格式 

优先 权 

如 来 在 一 个 局 域 网 中 负载 很 高 ， 那 么 用 户 会 察觉 到 很 长 的 延迟 。 有些 语音 或 视频 应 用 是 时 间 敏 感 
的 ， 延 次 很 高 时 其 质量 将 会 恶化 。 传统 于 ， 局 域 网 技术 利用 预 留 空间 来 解决 问题 ， 即 能 够 提供 比 需 此 
的 更 多 的 向 党。 这 种 技术 是 可 行 的 ， 因为 在 有 起 局 域 网 中 能 够 撕 供 很 便宜 的 高 带宽 : 但 是 在 短期 的 拥 
案 中 ,流量 可 能 会 暂时 超过 可 用 的 党 党 ， 因 此 可 以 为 关键 应 用 的 帧 分 配 更 高 的 优先 级 以 便 保证 它们 能 
够 得 到 更 好 的 服务 

以 太 网 本 身 并 不 具有 优先 级 机 市 ， 至 于 802. 1p， 是 后 来 集成 到 了 IEEE 802. 1D 中 的 ， 它 可 将 一 个 
可 选 的 优先 级 值 分 配给 一 个 以 太 网 帧 此 值 也 在 标签 帧 中 携带 ， 如 图 3-45 所 示 。 一 个 标签 帧 添加 了 4 
学 季 。 它 们 分 别 是 2 字 节 类 型 字段 ， 指 示 一 个 虚拟 局 域 网 协议 类 型 ( 值 =0x8100) ; 2 字 节 标签 控制 信 


〇 注意 VLAN 并 不 局 限于 以 太 网 。ALAN 标准 也 可 以 应 用 到 其 他 局 域 网 标准 中 ， 比 如 令 牌 环 ， 然 而 ， 由 于 以 太 网 
是 最 流行 的 ， 所 以 这 里 我 们 仅 讨 论 以 太 网 帧 


细小 尾 








息 字段 


符 ， 一 个 标签 帧 并 不 一 定 要 携带 VLAN 信息 
机 识别 帧 属于 哪个 VLAN CFI 看 起 来 很 神秘 
MAC 地 址 是 否 是 数据 规范 格式 


档 中 的 条 球 9. 3. 2 


后 者 又 可 以 进一步 划分 为 3 个 优先 字段 : 
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优先 级 、 规 范 格式 指示 器 (CFI) 和 虚拟 局 域 网 标识 
标签 可 以 仅 包 含 帧 的 优先 级 。VLAN 标识 符 有 助 于 交换 
这 是 一 个 1 位 的 字段 用 来 指示 MAC 数据 中 可 能 携带 的 
这 里 我 们 不 详细 讲解 规范 格式 。 有 兴趣 的 读者 可 参照 IEEE 802. 10 文 


因为 在 优先 字段 中 有 3 位 ， 所 以 优先 级 机 制 允 许 8 个 优先 级 类 。 表 3-11 列 出 了 标准 中 建议 的 优先 
台 交 换 机 可 以 根据 标签 值 对 到 达 的 流量 进行 分 类 并 安排 适当 的 队列 服务 来 小 


全 与 流量 类 型 的 有 映射 ， 
足 用 户 的 需求 





一 器 六 


表 3-11 





建议 的 优先 级 值 和 流量 类 型 的 映射 























优先 级 流量 类 型 | 优先 级 流量 类 型 优先 级 | 流量 类 型 优先 级 | 流量 类 型 
Te 背 早 0 (默认 ) | 最 大 努力 4 | 受 控制 的 负载 6 | <10ms 延迟 和 抖动 
| T i 
到 笃 亲 3 | 尽 全 力 转 发 5 <100ms 延迟 和 抖动 7 | 网 络 控制 





链 路 聚合 
































最 后 ， 我 们 介绍 链 路 聚合 。 多 条 链 路 可 以 聚合 起 来 就 像 是 一 个 大 容量 的 管道 。 例如， 如 果 需 要 更 


天 的 链 路 容量 时 ， 用 户 可 以 将 2 根 千 兆 链 路 聚合 成 一 恨 2 千 兆 的 链 路 
所 以 就 不 需要 购 头 10 千 兆 以 太 网 ) 


经 之 来 了 灵活 性 ， 


yo 
Ne 


因为 在 网 络 部 营 中 链 路 聚合 已 


链 路 聚合 厚 本 是 Cisco 的 一 种 技术 ， 称 为 EtherChannel， 通常 称 为 端口 汇聚 (trunking)， 后 来 于 
2000 年 标准 化 为 802. 3ad ， 并 不 局 限于 交换 机 之 间 的 链 路 ; 交换 机 和 站 总 之 间 以 及 站 点 与 站 点 之 问 的 


链 路 也 可 以 聚合 起 来 


这 些 帧 


不 过 ， 某 些 难题 使 设计 复杂 起 来 


例如 ， 


流 中 帧 的 排序 必须 在 链 路 层 中 维持 不 变 


链 路 聚合 的 原理 很 简单 : 发 射 机 在 聚合 链接 上 分 发 帧 ， 接 收 闫 从 聚合 链 路 收集 
若 虑 在 多 个 短 帧 之 后 跟 一 个 长 帧 的 情况 就 是 如 此 

如 果 将 长 帧 分 配 到 一 条 链 路 上 上 而 将 短 帧 分 配 到 另 一 条 链 路 上 上 ， 接 收 吾 可 能 会 收 到 这 些 乱 序 的 帧 
上 层 协议 可 以 处 理 无 序 的 帧 ， 但 是 效率 会 很 低 
衡 或 者 由 于 链 路 故障 ， 可 能 将 一 个 数据 流 从 一 条 链 路 转移 到 男 一 条 链 踏 上 传输 。 为 


为 了 负载 均 


英 吓 这 些 要 求 ， 跳 


设计 了 链 路 聚合 控制 协议 (LACP)。 建 议 需 要 了 解 详情 的 读者 ， 参 阅 IEEE 802. 3 标准 中 的 条 款 43。 


3.6 网 络 接口 的 设备 驱动 程序 


3. 6. 1 设备 驱动 程序 的 概念 
操作 系统 的 主要 功能 之 一 是 控制 输入 /输出 设备 操作 系统 中 的 输入 /输出 部 分 可 以 从 结构 上 分 成 


四 层 ， 如 图 3-46 所 示 


中 断 处 理 程序 也 是 驱动 程序 的 一 部 分 


1O 函 数 





用 户 进程 
独立 于 设备 的 操作 系统 软件 





设备 驱动 程序 


终端 处 理 程序 





设备 


] LO 调用 、 假 脱 机 

设置 设备 寄存 器 、 检 查 状态 
命名 、 保 护 、 分 配 

当 1O 完 成 时 ， 唤 醒 驱 动 程序 
执行 1O 操 作 








图 3-46 输入 /输出 软件 的 结构 
所 有 设备 相关 的 代码 都 钥 入 设备 驱动 程序 中 
生 能 够 正确 运行 因此， 网 络 设备 驰 动 程序 仅 是 操作 系统 的 一 部 分 ， 它 知道 网 络 适 配 需 有 多 人 少 个 寄存 


设备 驱动 程序 向 设备 寄存 器 发 出 命令 并 检查 它们 是 


A Ee 
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带 以 及 作 何 用 途 

设备 驱动 程序 的 工作 就 是 接收 从 它 之 上 上 的 独立 于 设备 的 软件 发 来 的 抽象 请 求 ， 并 通过 发 出 命令 给 
设备 寄存 器 来 处 理 这 些 请 求 。 发 出 命令 后 ， 或 者 设备 驱动 程序 阻塞 自己 直到 中 断 到 来 才 解 除 阻 塞 ， 或 
者 操作 立即 完成 ， 此 时 不 需要 驱动 程序 阻塞 


3. 6.2 在 Linux 设备 驱动 程序 中 如 何 与 硬件 通信 

在 设备 驱动 程序 可 以 与 设备 通信 之 前 ， 它 必须 初始 化 环境 。 初 始 化 包括 为 了 能 够 与 设备 寄存 器 通 
信和 而 进行 的 探测 YO 端口 ， 以 及 为 了 正确 安装 中 断 处 理 程序 而 进行 的 探测 IRQ。 我 们 还 将 讨论 为 了 传 
输 大 批量 数据 而 进行 的 直接 内 存 访 问 

探测 WO 端口 

使 件 设备 通 党 有 多 个 寄存 器 ， 并 为 了 读 和 写 将 它们 映射 到 连续 地 址 的 区 域 。 读 和 写 这 些 地 址 〈 实 
际 上 就 是 寄存 器 ) 就 可 以 控制 设备 .并非 所 有 的 输入 /输出 端口 都 绑 定 到 设备 寄存 咒 。 用户 可 以 将 内 容 
转 储 (dump) 到 /prtoc/ioports 中 以 便 查看 地 址 与 设备 之 间 的 映射 

设备 程序 员 在 ZKO 端口 可 以 为 设备 请 求 一 个 区 域 。 请 求 必须 首先 检查 区 域 是 否 已 经 分 配给 其 他 设 
备 。 注 意 检 查分 配 区 域 必须 在 一 种 原子 操作 中 进行 ， 否 则 ， 其 他 设备 可 能 获得 检查 后 的 区 域 并 产生 错 
误 。 获 取 一 个 输入 /输出 端口 的 区 域 后 ， 设 备 驱 动 程序 可 以 通过 读 或 写 端口 以 8 位 、16 位 、32 位 为 单 
位 (县 体 取 决 于 寄存 器 的 宽度 ) 探测 设备 寄存 带 。 这 些 操 作 是 利用 稍 后 即将 介绍 的 特殊 函数 来 进行 
的 。 操 作 之 后 ， 如 果 区 域 不 再 被 使 用 ， 了 驱动 程序 就 可 以 将 区 域 返还 给 系统 


中 断 处 理 
除了 不 断 探 测 设备 寄存 此 外 ， 在 探测 期 间 驱 动 程序 可 以 使 用 中 断 放 弃 CPU 将 它 转交 给 其 他 任务 的 
处 理 。 中 断 是 一 种 从 硬件 产生 的 异步 事件 以 引起 CPU 的 注意 。 设 备 驱动 程序 可 以 将 一 段 代码 ( 即 处 理 


时序 ) 注册 到 一 个 中 断 ， 以 便 如 果 发 生 中 断 就 让 处 理 程序 执行 。 系 统 上 的 中 断 都 进行 了 编号 ， 编 号 到 
设备 之 间 的 映射 可 以 从 文件 /proc/interrupts 中 看 到 

中 断 行 的 注册 类 似 于 LO 端口 的 获取 。 驱 动 程序 可 以 请 求 一 个 中 断 行 ， 使 用 它 ， 完 成 工作 后 再 释 
放 它 。 问 题 在 于 具体 哪个 中 断 行将 被 设备 合用。 虽然 用 户 可 以 手动 指定 一 个 中 断 行 ， 但 这 种 做 法 需要 
宦 外 的 工作 才能 找 出 其 中 可 使 用 的 中 断 行 ， 一 个 更 好 的 解决 办 法 就 是 进行 自动 检测 。 例 如 ，PCI 标准 
划 求 设备 声明 将 在 寄存 器 中 使 用 的 中 断 行 ， 以 便 驱 动 程序 可 以 通过 从 IO 端口 检索 号 码 学 习 设 备 的 中 
断 行 。 并 非 每 台 设 备 都 支持 这 种 明 动 检测 ， 因 此 另 一 种 方法 就 是 如 果 不 提供 支持 就 请 求 设 备 产 生 一 个 
中 册 ， 并 观察 哪 一 行 活跃 可 用 

中 断 处 理 的 一 个 问题 是 如 何在 中 断 处 理 程序 中 执行 长 任务 。 在 响应 设备 中 断 中 经 常 有 许多 工作 要 
做 ,但 中 断 处 理 程序 需要 尽快 完成 而 不 会 阻塞 其 他 中 断 过 长 的 时 间 。Linux 通过 将 中 断 处 理 程序 分 裂 成 
酚 部 分 来 解决 该 问题 。 上 半 部 是 对 中 断 做 出 响应 的 例 程 ， 也 是 注册 中 断 行 的 处 理 程序 。 下 半 部 处 理 费 
时 的 部 分 ， 上 半 部 在 安全 时 间 调 度 它 的 执行 ， 说明 执行 时 间 需 求 不 是 那么 关键 。 因 此 ， 在 上 半 部 处 理 
程序 完成 后 ， 就 可 以 释放 CPU 去 处理 其 他 任务 。Linux 内 核 具 有 两 种 机 制 实现 下 半 部 处 理 : BH (也 称 
为 下 半 部 ) 和 tasklets (小 任务 )。 前 者 是 在 老 版 本 中 实现 的 。 新 的 Linux 内 核 自 2.4 以 后 的 版 本 实现 
tasklets， 因 此 在 介绍 下 半 部 处 理 时 我 们 主要 介绍 后 者 。 

直接 内 存 访问 

下 接 内 存 访问 (DMA) 是 在 没有 中 央 CPU 的 参与 下 ， 有 效 转 移 大 批量 数据 进 、 出 内 存 的 一 种 硬件 
机 制 。 这 种 机 制 能 够 大 大 地 增加 设备 的 在 吐 量 并 减轻 处 理 器 的 负担 。 

DMA 数据 的 传输 可 以 以 两 种 方式 来 触发 : 1) 软件 从 系统 调用 (如 read) 来 请 求 数 据 ; 2) 硬件 异 
步 地 写 数据 。 当 程序 显 式 地 从 系统 调用 请 求 数据 时 使 用 前 者 ， 而 当 数 据 采 集 设 备 可 以 异步 地 将 获取 的 
数据 写 入 内 存 时 使 用 后 者 ， 即 使 在 没有 进程 需要 它 时 也 是 如 此 。 

商 一 种 方式 的 步 又 概述 如 下 : 

1) 妾 进程 需要 读 取 数据 时 ， 了 驱动 程序 分 配 一 个 DMA 缓冲 区 。 为 了 DMA 缓冲 区 从 硬件 中 读 取 数 
据 ， 进 程 进入 睡眠 ， 
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2) 便 件 将 数据 写 人 DMA 缓冲 区 中 ， 并 在 写 结束 后 发 出 一 个 中 上 断 ， 
3) 中 断 处 理 程序 获取 数据 并 唤醒 进程 。 现 在 ， 这 个 进程 就 有 了 数据 。 
后 一 种 方式 的 步 又 概述 如 下 : 

1) 硬件 发 出 一 个 中 断 宣布 数据 到 达 。 

2) 中 断 处 理 程序 分 配 DMA 缓冲 区 并 通知 硬件 开始 传输 

3) 便 件 从 设备 向 缓冲 区 写 入 数据 ， 当 它 完成 时 发 出 男 一 个 中 断 。 

4) 处 理 程序 发 送 新 的 数据 并 唤醒 有 关 进 程 处 理 数 据 。 

我 们 将 仔细 观察 在 以 下 开源 实现 中 的 相关 函数 





开源 实现 3.9: 探测 IO 端口 、 中 断 处 理 和 DMA 

Linux 设备 驱动 程序 与 硬件 之 间 交 互 是 通过 输入 /输出 端口 探测 、 中 断 处 理 和 DMA。 将 输入 /输出 
端口 映射 到 硬件 设备 上 的 寄存 器 ， 这 样 设备 驱动 程序 能 够 访问 输入 /输出 端口 读 或 写 寄 存 器 。 例如， 了 驱 
动 程序 可 以 将 命令 写 入 寄存 器 ， 也 可 以 读 取 设 备 的 状态 。 通 常 ， 当 了 驱动 程序 将 任务 分 配给 设备 执行 时 ， 
它 可 能 不 断 地 轮 询 状态 寄存 器 以 便 了 解 任务 是 否 完成 ， 但 如 果 任 务 不 能 立即 完成 ， 这 样 做 可 能 会 浪费 
CPU 周期 。 驱 动 程序 可 以 利用 中 断 机 制 来 通知 CPU， 之 后 调用 相关 中 断 处 理 程序 处 理 中 断 。 因 此 ， 处 
理 器 不 需要 忙 等 待 。 如 果 有 大 量 的 数据 需要 传输 ，DMA 可 以 代表 CPU 处 理 传 输 。 与 这 些 机制 相 关 的 函 
数 调用 会 在 下 面 介 绍 。 

函数 调用 

输入 /输出 端口 

自 Linux 内 核 版 本 2.4 以 后 ， 输 入 /输出 端口 已 纳入 到 通用 资源 管理 。 我们 可 以 使 用 设备 驱动 程序 
中 的 下 列 函 数 获得 设备 的 输入 /输出 端口 : 

struct resource *request region (unsigned long start, 

unsigned long n, char* name); 


void release region (unsigned long start , unsigned 
long len); 


我 们 使 用 request region() 保 留 1/0 端口 ， 这 里 start 是 1/0 端口 区 域 的 起 始 地 址 ，n 是 将 要 
获得 的 输入 /输出 端口 号 ，name 名 字 是 设备 名 称 。 如 果 返 回 一 个 非 零 的 值 ， 表 示 请 求 成 功 。 然 后 当 完 
成 时 ， 了 驱动 程序 应 该 调用 release region () 释 放 该 端口 。 

获得 输入 /输出 端口 的 区 域 后 ,设备 驱 动 程序 可 以 访问 端口 以 便 控 制 设备 上 的 寄存 器 ， 这 可 能 是 通 
过 命令 也 可 能 是 状态 注册 器 。 大 多 数 硬件 区 分 8 位 、16 位 和 32 位 端口 ， 所 以 C 程序 必须 调用 不 同 的 函 
数 访问 不 同 大 小 的 端口 。Linux 内 核定 义 了 以 下 函数 访问 IO 端口 : 


unsigned inb (unsigned port); 
void outb (unsigned char byte, unsigned port); 


inb () 读 字 节 (8 位 ) 端口 ， 而 outb () 写字 节 端 口 。 

unsigned inw (unsigned port); 

void outw (unsigned char byte, unsigned port); 

inw() 读 16 位 端口 ， 而 outw() 写 16 位 端口 。 

unsigned inl (unsigned port); 

void outl (unsigned char byte, unsigned port); 

inl () 读 32 位 端口 ， 而 out1l () 写 32 位 端口 。 

除了 一 次 性 进 和 出 操作 外 ，Linux 支持 以 下 字符 串 操 作 ， 如 果 CPU 没有 指令 用 于 字符 串 的 输入 / 输 
出 ， 这 实际 上 可 能 是 由 单个 CPU 指令 或 紧凑 循环 执行 的 。 

void insb (unsigned port, void *addr, unsigned long 

count); 


void outsb (unsigned port, void *addr, unsigned long 
count); 
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insb () 从 字 节 端口 读 count 字 节 ， 并 将 这 些 字 节 存 到 从 地 址 addr 开始 的 内 存 中 。outsp () 将 位 
于 存储 器 地 址 addr 的 count 计数 字 节 写 入 字 节 端口 


void insw (unsigned port, void *addr, unsigned long 
count); 
void outsw (unsigned port, void *addr, unsigned long 
count); 


它们 的 操作 是 类 似 的 ， 除 了 端口 为 16 位 端口 外 

void insl (unsigned port, void *addr, unsigned long 
count); 

void outsl (unsigned port, void *addr, unsigned long 
count); 


它们 的 操作 类 似 的 ， 除 了 端口 为 32 位 端口 外 

中 断 处 理 

与 获得 输入 /输出 端口 的 方法 一 样 ， 驱 动 程序 使 用 以 下 函数 寄存 (安装) 和 释放 ( 纯 载 ) 一 个 中 
断 处 理 程序 到 一 个 中 断 行 上 。 

#include <linux/sched.h>; 

int request irq(unsigned int irqg, irqreturn 七 

(*handler) (int, void *, struct pt regs *), unsigned 

long flags, const char *dev name ,void *dev id); 

void free irq (unsigned int irqg, void *dev id); 


在 前 者 ，irq 是 被 请 求 的 中 断 行 ，hangdler 是 相关 的 中 断 处 理 程序 。 其 他 参数 是 : flags 是 中 断 
的 属性 ，dev_name 是 设备 名 称 ，dev_id 是 指向 设备 数据 结构 的 指针 。 free irq() 中 参数 的 含义 与 
request irq() 中 的 一 样 ， 

当 一 个 中 断 发 生 时 ， 在 Linux 内 核 中 的 中 断 处 理 将 中 断 号 推 入 栈 中 ， 并 调用 do de 人 () 确认 中 断 ， 
函数 do_irdg() 将 查找 与 中 断 相 关 的 中 断 处 理 程序 ， 如 果 它 存在 就 通过 handle irgq event () 函数 调 
用 它 ; 和 否则， 函数 将 返回 ，CPU 继续 处 理 任 何 未 解决 的 软件 中 断 。 中 断 处 理 程序 通常 很 快 ， 因 此 其 他 
中 断 不 会 拥塞 太 久 。 中 断 处 理 程序 可 以 很 快 释放 CPU 并 在 某 个 安全 时 间 调 度 它 的 下 半 部 ， 

新 版 本 的 Linux 为 下 半 部 函数 使 用 tasklet。 例如， 如 果 你 编写 一 个 下 半 部 例 程 的 函数 func ()， 那 
么 第 一 步 就 是 通过 宏 DECLARE TASKLET (task，func，0) 宣布 定义 tasklet， 这 里 task 就 是 tasklet 的 
名 字 ,，tasklet 被 tasklet schedule (&task) 调 度 后 ，tasklet 例 程 及 task 将 在 系统 空闲 的 时 候 执 行 
一 会 儿 。 

以 下 函数 对 于 使 用 tasklets 很 有 用 : 


DECLARE TASKLET (name, function, data); 





宏 声明 lasklet， 这 里 name 是 tasklet 名 字 ，function 就 是 将 要 执行 的 实际 tasklet 函数 ，data 就 
是 将 要 传递 给 tasklet 函数 中 的 参数 。 

tasklet schedule (struct 七 aSKLet_ struct *t); 

咏 数 调度 将 在 系统 空闲 的 时 候 执行 的 tasklet， 这 里 七 指向 tasklet 结 

直接 内 存 访问 

DMA 缓冲 区 分 配 有 点 儿 复 杂 ， 这 是 由 CPU 缓存 的 一 致 性 问题 所 导致 的 。 如 果 缓 冲 区 中 的 内 容 改 
变 ， 那 么 CPU 就 应 该 使 它 到 DMA 缓冲 区 中 的 缓存 映射 无 效 ， 因 此 ， 驱 动 程序 应 该 小 心 确保 CPU 知道 
DMA 传输 ， 为 了 减轻 程序 员 解决 在 这 个 问题 的 工作 量 ，Linux 为 分 配 提供 了 一 些 函 数 。 这 里 ， 我 们 为 
缓冲 区 分 配 介绍 了 一 种 常见 的 方法 。 

驱动 程序 分 配 了 缓冲 区 后 (使 用 kmalloc () )， 它 便 使 用 以 下 元 数 指示 缓冲 区 映射 到 该 设备 上 ， 

dma addr t dma map single(struct device *dev, 


void *buffer, size t size, enum dma data direction 
direction) > 


其 中 dev 参数 指示 设备 ，buffer 是 缓冲 区 的 起 始 地 址 ，size 是 缓冲 区 的 大 小 ，direction 是 
教 据 移动 的 方向 (例如 ， 来自 设备 、 到 设备 ,或 双向 )。 传 输 之 后 ， 使 用 以 下 沪 数 删 除 映 射 。 
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dma addr t dma unmap single(struct device *deyv, 

void *buffer, size t size, enum dma data direction 

direction); 

像 VO 端口 和 中 断 一 样 ，DMA 信道 必须 在 使 用 之 前 进行 注册 。 用 于 注册 和 释放 的 函数 是 : 
int request_dma (unsigned int channel, const char 

*name); 


void free dmalunsigned int channel); 

该 channel 参 孝 是 一 个 0~MAX DMA CHANNELS 之 间 的 数 (在 PC 上 通常 为 8)， 具 体 由 内 核 配 置 
定义 。name 参数 表示 设备 

注册 后 ， 为 了 能 够 正确 地 操作 ， 驱 动 程序 应 配置 DMA 控制 器 。 以 下 函数 可 以 执行 配置 : 

void set_dqma_mode (unsigned int channel, char mode); 

第 一 个 参数 是 DMA 信道 ，mode 参数 可 以 是 DMA MODE READ， 以 便 从 设备 读 取 ， 也 可 以 是 DMR 
MODE _ WRITE， 用 于 写 入 设备 ,而 DMA_ MODE_ CASCADE 用 于 连接 2 个 DMA 控制 器 


void set dma addr (unsigned int channel, unsigned int 
addr); 


第 一 个 参数 是 DMA 信道 ，addr 参数 是 DMA 缓冲 区 的 地 址 


void set dma count (unsigned int channel, unsigned int 


EGR 人 ; 
第 一 个 参数 是 DMA 信道 ，count 参数 是 将 要 传输 的 字 节 数 
练习 


1. 通过 研究 tasklet schedule () 函数 调用 ， 解 释 如 何 调度 tasklet 

2. 列举 一 个 轮 询 优 于 中 断 的 案例 

一 个 典型 的 Linux 系统 为 它 的 各 种 可 能 硬件 组 件 配 备 了 很 多 设备 驱动 程序 。 在 这 些 驱 动 程序 中 ， 
用 于 网 络 设 备 的 是 与 计算 机 网 络 最 密切 相关 的 。Linux 内 核 支 持 多 种 网 络 接口 驱动 程序 ( 参见 drivers/ 
nel 日 录 )。 我 们 选择 NE2000 以 太 网 接口 的 驱动 程序 介绍 网 络 接 口 驱 动 程序 的 设计 。 


开源 实现 3.10: Linux 中 的 网 络 设备 驱动 程序 

概述 

本 节 利 用 一 个 实际 例子 来 说 明 设 备 驱 动 程序 如 何 实现 与 网 络 接口 之 间 的 交互 。 交互 主要 包括 设 
备 初 始 化 、 传 输 处 理 和 接收 处 理 。 在 设备 初始 化 中 ， 驱 动 程序 分 配 空 间 ， 并 初始 化 重要 的 网 络 接口 
数据 结构 ， 如 IRQ 号 和 MAC 地 址 。 在 传输 和 接收 处 理 中 ， 设 备 驱 动 程序 利用 中 断 来 通知 处 理 的 
完成 

框图 

设备 驱动 程序 中 最 重要 的 流 是 帧 的 传输 和 接收 。 我们 在 图 3-47 和 图 3-48 中 说 明 这 个 流程 
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4) 中断 发 生 
图 3-47 ” 帧 传输 过 程 中 执行 的 消 数 序列 
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图 3-48 ” 帧 接收 期 间 执 行 消 数 的 序列 
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数据 结构 

net device 数据 结构 是 与 网 络 设备 的 信息 相关 联 。 当初 始 化 一 个 网 络 接口 时 ， 分 配 该 接口 的 结 
构 空间 并 进行 注册 。 这 种 结构 非常 大 ， 包 含 与 配置 、 统 计 、 设 备 状态 、 列 表 管 理 等 相关 的 字段 。 下 面 
列 出 配置 中 与 初始 化 相关 的 几 个 字段 . 

char name [IFNAMSIZ]: 设备 名 称 ,例如 eth0 

unsigned int irq: 设备 使 用 的 中 断 号 。 

unsigned short type: 表明 设备 类 型 的 号 ， 如 以 太 网 。 

unsigned char dev addr [MAX ADDR LEN]:; 设备 的 链 路 层 地 址 。 

unsigned char addr len: 链 路 层 地 址 的 长 度 ， 以 太 网 中 为 6 字 节 。 

int promiscuity: 是 否 运行 在 混杂 模式 。 

算法 实现 

设备 初始 化 

Linux 内 核 使 用 net device 数据 结构 表示 一 个 网 络 设备 ， 其 中 包括 与 该 设备 属性 相关 的 字段 。 在 网 络 
接口 可 以 使 用 之 前 ， 它 的 net_ device 结构 必须 初始 化 ， 并 且 设 备 必须 进行 注册 。 利 用 net/core/dev. c 
中 的 alloc netdev () 函数 进行 初始 化 。 如 果 初 始 化 成 功 ， 就 返回 一 个 指向 新 分 配 结构 的 指针 。 将 三 个 参 
数 传递 给 alloc netdev: 结构 的 大 小 、 设 备 名 称 、 启 动 例 程 。 alloc netdev () 函数 是 通用 的 ， 可 从 各 种 
设备 类 型 的 初始 化 函数 调用 。 例如 ，net/ethernet/eth. c 中 的 alloc etherdev () 调用 带 有 设备 名 称 
为 “eth% d” 参 数 的 函数 alloc netdev () ， 因 此 内 核 可 以 给 该 设备 类 型 分 配 第 一 个 未 分 配 过 的 编号 ， 用 
dev alloc name () 函数 来 填写 名 称 。 这 就 是 为 什么 我 们 会 在 用 户 空间 看 到 像 “eth0” 等 名 称 的 原因 。 初 
始 化 设置 net_ device 数据 结构 中 的 IRQ、LO 内 存 、LO 端口 、MAC 地 址 、 排 队 规律 等 字段 。 

使 用 alloc_netdev () 分 配 和 初始 化 net_device 结构 后 ，netdev boot _setup_check () 函数 
检查 网 络 设备 可 选 的 启动 配置 参数 ， 例 如 IRQ 号 。 经 过 该 过 程 后 ， 该 设备 利用 register netdevice () 
咏 数 在 设备 数据 库 中 进行 注册 。 同 样 ， 调 用 函数 unregister netdevice() 从 内 核 中 纯 载 设备 驱动 程 
序 ， 还 应 该 释放 设备 占用 的 资源 (如 IRQ)。 

传输 过 程 

图 3-47 显示 了 以 NE2000 以 太 网 接口 为 示例 的 传输 过 程 。 当 内 核 有 一 个 帧 要 发 送 时 ， 它 首先 调 
用 通用 的 hard_start_xmit () 函数 ， 然 后 调用 设备 上 的 特定 ei_start_xmit () 函数 。 函 数 ei 
start xmit () 调 用 ne2k pci block output () 将 帧 移动 到 网 络 接口 上 。 当 帧 发 送出 去 后 ，NE2000 
接口 便 发 送 中 断 通 知 内 核 ， 内 核 将 调用 相应 的 中 断 处 理 程序 ei interrupt (), ei _ interrupt () 函 
数 将 首先 确定 中 断 所 属 的 类 型 。 当 它 发 现 中 断代 表 的 是 帧 传输 时 ， 它 就 调用 ei tx _intr () 函数 ， 接 
下 来 又 调用 NS8390 trigger _ send () 在 接口 上 传输 下 一 个 帧 (如 果 有 )， 然 后 调用 netif wake 
queue () 让 内 核 继续 下 一 个 任务 。 
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接收 过 程 

图 3-48 显示 了 前 面 例子 中 的 接收 过 程 。 当 网 络 接口 接收 到 这 个 帧 时 ， 它 利用 中 断 通知 内 核 。 内核 
然后 调用 相应 的 处 理 程序 ei interrupt () 。 函数 ei interrupt () 确 定 中 断 所 属 的 类 型 ， 因 为 中 断 
代表 帧 接收 ， 所 以 调用 ei _ receive () 函数 。 函 数 ei receive() 将 调用 ne2k pci block input () 
将 帧 从 网 络 接口 移动 到 系统 内 存 ， 并 将 帧 填 入 到 sk buff 结构 中 。 函数 netif _rx() 将 帧 传 给 上 层 ， 
然后 内 核 执 行 下 一 个 任务 

练习 

1. 解释 网 络 设备 中 如 何 将 帧 移动 到 sk buff 结构 中 ( 见 ne2k pci block input () ) 

2. 找 出 设备 注册 的 数据 结构 ， 


性 能 问题 : 驱动 程序 中 断 和 DMA 处 理 

表 3-12 显示 了 通过 具有 2.33GHz CPU 的 PC 上 Realtek 8169 以 太 网 适配器 处 理 ICMP 帧 时 所 花费 的 
中 断 处 理 时 间 和 DMA 逝去 时 间 。DMA 逝去 时 间 不 消耗 CPU 时 间 ， 因 为 数据 传输 由 DMA 去 完成 。 结 果 
显示 ， 中 断 处 理 程序 的 处 理 时 间 并 不 随 帧 的 大 小 而 改变 。 其 原因 在 于 ， 中 断 处 理 程序 的 主要 任务 ， 如 
通过 向 设备 寄存 器 发 出 命令 与 底层 硬件 之 间 的 交互 ， 是 独立 于 帧 的 。 另 一 方面 ，DMA 时 间 取 决 于 传输 
帧 的 大 小 。 另 一 种 看 法 是 ， 中 断 处 理 程序 的 RX (接收 ) 时 间 要 比 TX (发 送 ) 时 间 高 , 而 DMA 的 RX 
(接收 ) 时 间 远 远 高 于 TX (发 送 ) 时 间 。RX 中 断 处 理 程序 为 了 发 送 需 要 分 配 和 映射 DMA 缓冲 区 ， 因 
此 它 就 比 TX 中 断 处 理 程序 花费 更 多 一 点 的 时 间 。 我 们 测 得 的 RX (接收 ) DMA 时 间 包 括 DMA 传输 时 
间 以 及 额外 的 DMA 控制 器 的 硬件 处 理 时 间 ， 但 TX DMA 时 间 只 包含 DMA 发 送 时 间 ， 这 导致 RX DMA 
时 间 比 TX DMA 的 时 间 高 很 多 。 

















表 3-12 中 断 和 DMA 的 数据 包 处 理 时 间 单位 : 微 秒 (ps) 
中 断 处 理 程序 DMA 
ICMP 数据 包 的 有 效 载荷 大 小 1T% RX TX RX 
1 2.43 2.43 7.92 9. 27 
100 2.24 2.71 9.44 12. 49 
1000 2. 27 2.51 18. 58 83. 95 











最 后 ， 值 得 注意 的 是 ， 中 断 处 理 时 间 取 决 于 CPU 的 速度 ，DMA 上 进去 时 间 主 要 取决 于 底层 的 适 配 
器 。 正 如 我 们 在 1.5.3 节 中 曾 介 绍 过 的 ，Intel PRO/100 以 太 网 适配器 和 1.1CHz CPU 的 DMA 时 间 大 约 
是 114s， 在 链 路 层 上 处 理 64 字 节 数据 包 需 要 的 时 间 大 约 是 8hs (TX) 和 11lhs (RX)， 与 这 里 的 值 不 
同 。 表 3-12 中 对 应 于 100 字 节 的 数据 包 的 一 行 显示 中 断 时 间 较 低 ， 而 DMA 时 间 较 高 。 虽 然 值 发 生 了 
变化 ， 但 这 里 得 到 的 观测 值 是 独立 于 硬件 的 


历史 演变 : 驱动 程序 的 标准 接口 

在 早期 的 x86-DOS 年 代 ， 操 作 系 统 没有 提供 任何 网 络 模块 ， 因 此 驱动 器 直接 与 应 用 程序 绑 定 并 且 
必须 自己 处 理 所 有 的 网 络 功能 。1986 年 FTP Software 开发 了 PC/TCP 产品 ， 这 是 用 于 DOS 的 一 个 TCP/ 
IP 库 ， 并 且 定 义 了 数据 包 驱 动 程 序 接口 ， 它 控制 PCZTCP 和 设备 驱动 程序 之 间 的 编程 接口 。 有 了 公共 
接口 的 帮助 ， 驱 动 程序 开发 人 员 在 为 新 硬件 开发 驱动 程序 时 就 不 需要 修改 太 多 。 商业 操作 系统 标准 化 
了 这 些 接口 ， 例 如 ， 由 Novell 公司 和 苹果 公司 制定 的 开放 数据 链 路 接口 (ODI) 以 及 微软 和 3Com 制 
定 的 网 络 驱动 程序 接口 规范 (NDIS) 。Linux 直到 内 核 版 本 2.4 才 规 定 了 其 接口 的 名 字 。 它 使 用 中 断 
驱动 的 方法 来 处 理 收 到 的 帧 。 自 内 核 版 本 2.5 以 后 ， 设 计 了 一 种 新 的 接口 ， 称 为 新 应 用 编程 接口 
(NAPI) ， 旨 在 支持 高 速 网 络 ， 但 它 在 内 核 版 本 2.6 中 实现 驱动 程序 时 仍 是 一 个 可 选 功 能 。NAPI 设计 
的 理念 是 过 于 频繁 的 中 断 会 降低 系统 的 性 能 。NAPI 交替 地 使 用 中 断 处 理 程序 ， 以 保持 短 延 迟 ， 并 且 它 
采用 循环 轮 询 方式 一 次 就 能 处 理 多 个 帧 ， 而 不 是 每 次 都 要 触发 处 理 程序 。 

设备 驱动 程序 还 必须 支持 另 一 个 接口 : 硬件 规范 。 这 是 一 个 通常 称 为 数据 表单 的 规范 ， 它 记录 了 驱 
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动 程序 和 硬件 之 间接 口 的 文档 。 它 提供 了 详细 的 编程 信息 ， 包 括 I/0 寄存 器 的 功能 和 宽度 以 及 DMA 控 
制 器 的 性 能 。 设 备 开发 商 按 照 规 范 初始 化 硬件 ， 获 取 状 态 ， 请 求 DMA 传输 ， 发送 和 接收 帧 。Novell 公 
司 的 NE2000 网 络 卡 销售 非常 成 功 ， 以 至 于 它 的 设备 驱动 程序 成 为 一 个 事实 上 的 标准 规范 。 很 多 厂商 
声称 他 们 的 网 络 世 片 组 是 与 NE2000 兼容 的 ， 以 简化 驱动 程序 的 开发 ， 为 了 与 NE2000 兼容 ，1/O 寄存 
器 和 DMA 控制 器 的 功能 完全 模仿 NE2000 数据 表 。 由 于 其 功能 有 限 ，NE2000 已 不 再 流行 。 用 于 对 控 
制 器 编程 的 硬件 控制 器 的 数据 表单 已 经 成 为 驱动 程序 开发 者 的 标准 实践 


3.7 总 结 

我 们 从 介绍 链 路 层 的 关键 概念 〈 包 括 成 帧 、 寻 址 、 差 铺 探 制 、 流 量 控制 和 介质 访问 控制 等 ) 的 介 
绍 入 手 ， 这些 殉 高 层次 的 概念 ， 为 两 个 或 黄 个 以 上 的 节点 生 相通 信和 提供 了 物理 信和 号 之 上 的 传输 机 制 。 
然后 ， 我 们 就 可 以 利用 这 些 概 念 学 习 流 行 的 有 线 和 无 线 连接 的 链 路 技术 -在 有 线 和 无 线 技术 中 , 我们 
特别 关注 以 太 网 和 IEEE 802. 11 无 线 局 域 网 ， 央 为 它们 在 各 自 的 领域 中 已 经 成 为 占据 主导 的 技术 。 一 
般 来 讨 ， 以 太 网 更 快 、 更 可 靠 ， 但 802. 11 无 线 局 域 网 具有 移动 性 ， 而 且 部 署 起 来 更 容易 。 我 们 还 介绍 
了 多 个 局 域 网 下 联 的 桥接 技术 .桥接 的 主要 问题 包括 帧 转发 、 避 免 转发 回路 的 生成 树 协议 、 方 便 局 域 
网 配置 的 虚拟 局 域 网 等 介绍 过 所 有 这 些 技术 之 后 ,我 们 解释 了 网 络 接口 设备 驱动 程序 的 实现 。 从 这 
些 实现 中 ， 你 应 该 知道 网 络 接口 到 底 是 如 何 工 作 的 

里 然 多 年 来 以 太 网 和 [IEEE 802. 11 无 线 局 域 网 的 速度 都 大 大 提高 了 ， 但 这 主要 是 由 于 物理 层 信号 
处 理 技术 的 进步 所 导致 的 。 链 路 部 分 ， 如 成 帧 ， 为 了 保持 向 后 兼容 性 几乎 保持 不 变 。 然 而 ， 链 路 技术 
岂 有 其 自己 的 进步 ， 例 如 更 好 的 可 配置 性 、 更 好 的 介质 访问 控制 ( 如 全 双 工 操作 )， 以 及 更 好 的 安全 
性 。 有些 机 制 ， 如 链 路 聚合 ， 也 有 助 于 节点 之 间 的 总 乔 此 量 的 提高 。 正 在 发 生 的 演变 包括 更 高 的 速度 、 
链 路 层 的 QoS 和 节能 机 制 。 速度 永 远 是 追求 的 目标 。 目 前 ，40Gbps 和 100Gbps 以 太 网 正在 兴起 。 
802. 11n 标准 的 原始 数据 率 提高 到 600Mbps- 在 无 线 技术 (如 WiMAX) 中 提供 链 路 层 的 QoS， 以 及 节 
能 技术 也 一 下 部 是 移动 设备 的 主要 问题 ， 

链 路 层 协议 主要 处 理 既 可 以 通过 有 线 也 可 以 通过 无 线 链 路 直接 链接 的 两 个 节点 之 间 的 连通 性 。 然 
而 ， 互 联网 中 任意 两 个 节点 之 间 的 连通 性 会 更 用 难 ， 央 为 在 包括 数 十 亿 台 主机 的 所 大 互联 网 中 数据 包 
需要 能 够 从 一 个 节点 通过 多 条 链 路 到 其 他 节点 。 首 先 ， 必 须 有 一 个 可 扩展 的 寻 址 机 制 来 解决 在 互联 网 
上 [这么 多 对 的 主机 ， 使 源 和 目地 主机 之 间 的 节点 不 需要 在 整个 地 址 空间 中 保持 到 达 每 一 个 可 能 的 目的 
地 的 路 由 。 其 次 ， 路 由 必须 定期 更 新 ， 以 反映 最 新 的 从 源 到 目的 地 的 连接 状态 。 例 如 ， 如 果 在 路 由 中 
的 某 条 链 路 断 开 ， 就 必须 通过 某 种 方式 知道 到 这 个 问题 ， 并 从 源 到 目的 地 选择 一 条 新 的 路 由 。 这 些 都 
是 第 4 曹 要 解决 的 问题 。 因 为 互联 网 协议 (IP) 是 网 络 层 的 主要 协议 ， 本 章 应 该 包括 互联 网 协议 是 如 
何 解决 有 关 可 扩展 寻 址 、 分 组 转发 和 可 扩展 路 由 信息 交换 等 问题 。 


常见 陷阱 


以 太 网 性 能 〈 半 双 工 和 全 双 工 模式 利用 率 ) 

研究 人 员 曾 经 对 在 极其 沉重 的 负荷 下 以 太 网 的 最 大 信道 利用 率 及 其 感 兴趣 ， 尽 管事 实 上 ， 如 此 重 
负荷 的 情况 是 不 可 能 发 生 的 。 计算 机 仿真 、 数 学 分 析 和 现实 世界 的 测量 都 是 获得 有 价值 结论 的 可 行 办 
法 。 与 ALOHA 和 时 际 ALOHA 等 简单 机 制 不 同 ， 很 难 从 数学 上 分 析 一 套 完 整 的 CSMAZCD 机 制 。 当 实 
验 性 以 太 网 在 施乐 实验 室 发 明 时 ，Bob Metcalfe 和 David Boggs 在 1976 年 发 表 了 一 篇 论文 ， 报 告 使 用 他 
们 建立 的 简化 模型 时 以 太 网 最 多 可 以 达到 约 37% 的 信道 利用 率 。 不 幸 的 是 ， 这 个 值 多 年 来 一 直 被 引 
用 ， 尽 管 以 太 网 技术 已 经 完全 不 同 于 DIX 标准 之 初 的 实验 模型 。 除 了 将 CSMAZCD 的 精髓 保留 下 来 之 
外 ， 已 经 采用 了 不 同 的 FCS 、 不 同 的 前 导 符 、 不 同 的 地 址 格式 、 不 同 的 PHY 等 。 此 外 ， 在 同一 冲突 域 
中 都 假定 256 台 站 点 ， 这 在 现实 世界 中 是 不 可 能 的 。 

后 来 David Boggs 等 人 在 1988 年 发 表 了 论文 ， 试 图 澄清 这 个 缺陷 。 他 们 针对 带 有 24 个 站 点 的 10 Mbps 以 
太 网 系统 经 过 不 断 地 洪 泛 帧 ， 进 行 了 实际 的 测试 。 在 压力 测试 下 ， 结 果 表 明 最 大 帧 时 利用 率 会 超过 95% ， 
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最 小 帧 时 为 90% 堪布 一 这 表明 以 太 网 性 能 是 比较 令 人 满意 的 

随 着 交换 机 变 得 越 来 越 流 行 ， 多 段 网 络 分 成 了 许多 单独 的 冲突 域 ， 同 一 冲突 域 中 许多 站 点 的 情况 
会 进一步 缓和 。 自 全 双 工 操作 问世 后 ，CSMAZCD 所 强制 的 任何 限制 就 不 存在 了 ， 因 此 链 路 两 端 都 可 以 
以 最 大 速 虚 传输， 能 够 提供 最 大 帧 速率 和 数据 容量 的 交换 机 称 为 线 速 或 非 阻塞 交换 机 

另 一 个 可 能 值得 关注 的 问题 就 是 以 太 网 帧 中 的 数据 字段 不 够 “长 ” 不 同 于 其 他 技术 ， 如 令 牌 环 ， 
在 4Mbps 时 有 4528 字 节 ,在 16 或 100Mbps 时 有 18 173 字 节 的 数据 字段 ，1518 字 节 的 最 大 未 标记 帧 中 
的 数据 字段 只 有 1500 字 节 。 这 让 大 不禁 会 联想 到 ， 以 太 网 中 非 数 据 的 额外 开销 包括 头 部 信息 、 尾 部 和 
IFG 所 占 的 百分比 会 大 于 其 他 技术 

以 太 网 帧 没有 那么 长 有 一 定 的 历史 原因 。 以 太 网 发 明 于 30 多 年 前 ， 当 时 存储 融 的 价格 昂 贯 ， 用 于 
帧 的 缓冲 区 存储 咒 相 当 有 限 ， 设计 一 个 不 太 长 的 帧 或 者 数据 字段 都 具有 一 定 意义 。 对 于 大 的 数据 传输 ， 
如 FTP 流量, 趋向 于 传输 长 帧 ， 数 据 字 段 可 以 占据 高 达 1300/ (1518 +8 +12) =97.5% 的 信道 带宽 
额外 开销 相当 低 ! 显著 增加 帧 的 最 大 长 度 对 于 降低 额外 开销 不 会 有 很 大 帮助 。 


冲突 域 、 广播 域 和 VLAN 


对 于 初学 以 太 网 的 学 生来 说 常常 会 混 洗 前 两 个 术语 。 冲 突 域 就 是 在 多 个 站 点 同时 传输 时 导致 冲突 
的 网 络 覆 立 范 围 。 例 如 ， 中 继 器 集线器 和 与 之 连接 的 站 点 就 形成 一 个 冲突 域 。 相 反 ， 交 换 机 明确 地 利 
用 端口 来 分 隔 冲突 域 。 换 名 话说 ,来自 连接 到 交换 机 端口 上 的 共享 局 域 网 的 传输 不 会 导致 与 来 自从 同 

个 局 域 网 但 通过 另 一 个 端 所 的 其 他 传输 产生 冲突 

然而 ， 妆 一 个 帧 以 广播 地 址 作为 目的 地 址 时 ， 交换 机 仍然 将 它 转发 到 除了 到 来 端 吕 外 的 所 有 其 他 
端口 上 上， 广播 流量 可 以 到达 的 广播 范围 称 为 广播 域 ， 因 此 我 们 可 能 出 于 安全 或 者 节省 局 域 网 内 带宽 的 
原因 而 限制 广播 流量 的 范围 

VLAN 方法 也 可 以 彼此 分 隔 广播 域 ， 但 它 是 与 物理 连接 不 同 的 一 种 逻辑 分 离 。 换言之 ， 不 需要 更 
改 物 理 连接 。 它 通过 设备 配置 进行 隔离 ， 就 像 对 它 进 行 了 物理 更 改 一 样 ， 震 要 使 用 如 路 由 器 等 设 
提供 高 层 的 连接 ， 以 连接 两 个 或 多 个 独立 的 VLAN。 


5 -4-3 规 则 和 多 段 网 络 

据说 以 太 网 遵循 5-4-3 规则 这 听 起 来 很 容易 记 住 ， 但 规则 不 像 听 起 来 那么 简单 .规则 实际 上 
是 一 个 验证 了 多 段 10Mbps 以 大 网 络 正 确 性 的 保守 性 规则 。 但 这 并 不 是 每 个 以 太 网 部 置 都 应 该 遵循 的 
定律 

止 如 我 们 前 面 提 到 的 ， 为 了 正确 地 操作 ， 在 冲 窒 域 中 的 往返 传播 时 间 不 应 该 太 长 。 但 是 不 同 的 传 
输 介质 和 中 继 器 集线器 的 数量 会 产生 不 同 的 延迟 作为 网 络 管理 员 的 快速 指南 ，IEEFE 802. 3 标准 提出 
了 两 种 传输 系统 模型 。 传 输 系 统 横 型 | 是 一 套 符合 上述 要 求 的 配置 ， 换 句 话说 ， 如 果 尊 循 这 些 配置 ， 
网 络 就 能 正常 运行 。 有 时 ， 你 可 能 需要 将 上 月 己 的 网 络 配置 成 不 同 于 传输 系统 模型 1 的 配置 。 你 必须 亲 
自己 估算 自己 的 网 络 是 否 达到 要 求 .传输 系统 模型 2 提出 了 一 套 计 算 方 法 来 为 你 提供 帮助 。 例如， 它 
会 告诉 你 基 类 介质 网 段 的 延迟 值 

第 13 条 ,“ 多 段 10Mbps 基带 网 络 的 系统 考虑 ” ya lade de 
给 路 径 是 由 4 台中 继 器 和 35 个 网 段 组 成 时 ， 最 多 可 以 混合 3 段 而 其 余 必须 是 链 路 分 


te 一 个 混合 区 要 有 一 个 有 个 以上 的 和 于 人 质 。 一 条 链 
路 是 0 站 质 。 人 们 通常 将 链 路 分 段 看 成 是 一 个 没有 PC 的 网 段 ， 但 


1 不 是 精确 的 描述 -该 规则 意味 着 ， 如 果 以 这 种 方式 配置 网 络 ， 它 就 可 以 工作 。 随 着 越 来 越 多 的 网 
ee 此 规则 已 经 过 时 





人 Boggs 论文 中 计算 了 利用 头 部 、 尾 部 以 及 IFG 的 开销 。 因 此 ， 尽 管 在 他 的 论文 中 考虑 了 这 样 的 开销 ， 但 是 如 果 没 
有 发 生 这 些 冲 突 ， 则 为 100% 的 利用 率 





高 字 节 顺序 和 低 字 节 顺 序 

熟悉 网 络 编程 的 人 ， 也 可 能 会 混淆 高 字 节 顺序 (big-endian) 和 低 字 节 顺 序 (litle-endian)。 他 们 
知道 网 络 字 节 顺序 ， 例 如， 互联 网 协议 〈 正 ) 的 字 节 顺序 使 用 高 字 节 顺序 。 然 而 ,我们 曾经 提 到 ， 以 
太 网 使 用 低 字 节 顺序 传送 数据 。 这 是 否 存 在 矛盾 ? 

孝 虑 一 个 4 字 节 的 字 ， 每 个 字 节 分 别 用 46,6;4b,b, 以 降序 表示 。 这 里 将 它 存储 在 内 存 中 有 两 种 选择 : 

1) 将 4 存放 在 最 低 字 节 地 址 ， 将 6, 中 存放 在 第 二 低 的 字 节 地 址 ， 以 此 类 推 

2) 将 性 存 放 在 最 高 字 节 地 址 ， 将 包 中 存放 在 第 二 高 的 字 节 了 地址 ， 以 此 类 推 。 

前 者 称 为 高 字 节 顺序 ， 而 后 者 称 为 低 字 节 顺 序 。 顺 序 随 着 主机 上 的 CPU 和 操作 系统 的 不 同 而 改 
变 。 当 在 网 络 上 传输 某 些 多 字 节 数据 (如 整数 ) 时 ,会 导致 结果 不 一 致 。 需 要 强制 执行 网 络 字 节 顺 
序 ， 以 保持 一 任性。 最 流行 的 网 络 层 协 议 ， 互 联网 协议 (IP)， 采 用 高 字 节 顺序 。 无 论 主机 字 节 顺序 是 
什么 ， 在 传输 之 前 都 将 数据 转换 为 网 络 字 节 顺 序 ， 接 收 后 再 转换 为 主机 字 节 顺序 ， 以 防 出 现 上 述 不 一 
致 的 情况 

这 就 是 互联 网 内 议 要 做 的 工作 。 链 路 协议 逐 字 节 地 接收 来 自 上 层 协议 的 数据 。 上 层 协议 的 字 节 顺 
序 与 链 路 协议 无 关 。 链 路 协议 主要 关心 传输 的 位 顺序 ， 而 不 是 字 节 顺序 ， 

以 太 网 使 用 低位 顺序 。 在 传输 中 它 最 先 传输 最 低位 ， 最 后 传输 最 高 位 。 相 反 ， 令 牌 环 或 FDDI 最 先 
传输 最 高 位 ， 最 后 传输 最 低位 。 它 们 称 为 使 用 低位 顺序 。 它 们 不 应 该 与 字 节 顺序 相 混 淆 


点 到 点 协议 

PPP、PPPoE 和 IPCP 分 别 定义 在 RFC1661 、RFC2516 和 RFC 1332 中 。Sun 指南 中 介绍 了 在 UNIX 
上 的 实际 PPP 操作 。 

® W.Simpson, “ The Point -to - Point Protocol (PPP),” RFC 1661, July 1994. 

e L. Mamakos, K. Lidl, J. Evarts, D. Carrel, D. Simone, and R. Wheeler, “ A Method for Transmitting 

PPP over Ethernet,” RFC 2516, Feb. 1999. 
® G. McGregor, “The PPP Internet Protocol Control Protocol (IPCP),” RFC 1332, May 1992. 
e Sun, Using and Managing PPP, O'Reilly, 1999. 


以 太 网 
Seifert 是 IEEE 802. 1 和 802. 3 标准 的 合 著者 之 一 。 他 的 《Gigabit Ethernet》 一 书 准确 地 描述 了 技术 
并 具有 市 场 洞察 力 ， 如 果 你 希望 深入 了 解 千 兆 以 太 网 的 技术 细节 而 又 不 被 措辞 枯燥 的 标准 所 困扰 ， 那 
么 就 可 以 阅读 该 书 。 他 还 有 一 本 全 面 讨 论 交 换 机 的 书 。 你 会 发 现在 他 的 书 中 详细 介绍 了 STP、VLAN、 
链 路 聚合 和 其 他 概念 。Spurgeon 是 一 位 经 验 丰 富 的 网 络 设计 师 ， 他 的 书 从 管理 的 角度 介绍 了 以 太 网 。 
e Rich Seifert, Gigabit Ethernet, Addison Wesley，1998. 
® Rich Seifert, The Switch Book, Wiley, 2000. 
e C harles E. Spurgeon, Ethernet: The Definitive Guide, O° Reilly, 2000. 
下 面 给 出 了 标准 文件 的 列表 。 所 有 的 正 EE 802 标准 已 经 在 http: //standards. ieee. org/getieee802/ 
中 供 月 由 下 载 。 由 万 兆 联盟 ， 一 个 致力 于 促进 下 一 代 10 千 兆 以 太 网 的 技术 联盟 ， 已 经 发 布 了 白皮书。 
® ISO/IEC Standard 8802 -3，“Carrier Sense Multiple Access with Collision Detection (CSMAZCD ) 
Acecess Method and Physical Layer Specifications , ”2000. 
e 10 Gigabit Ethernet Alliance, “10 Gigabit Pthernet Technology Overview: White paper,” http: // 
www. 10gea. org, Sept. 2001. 
以 下 是 MAC 网 桥 标准 和 VLAN 网 桥 标准 ， 也 在 上 上 述 网 站 中 提供 。 
e [ISO/IEC Standard 15802 =3, “Media Access Control (MAC ) Bridges,” 1998 Edition. 
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® [EEE 802. 10, “Virtual Bridged Local Area Networks,” 1998 Edition. 

以 下 是 几 篇 有 关 以 太 网 研究 引用 率 很 高 的 论文 。 前 两 个 是 早期 的 以 太 网 性 能 分 析 。 

e R. M. Metcalfe and D. R. Boggs, “ Ethernet: Distributed Packet Switching for Local Computer Networks ,” 
Communications of the ACM , Vol. 19 Issue 7, July 1976. 

® D.R.Boggs, J.C. Mogul, and C. A. Kent, “ Measured Capacity of an Ethernet: Myths and Reality,” 
ACM SIGCOMM Computer Communicalion Review ，Vo. 18 Issue 4, Aug. 1988. 

® W. Willinger, M.S. Taqqu, R. Sherman, and D. V. Wilson, “ Self ~ Similarity Through High Variability : 
Statistical Analysis of Ethernet LAN Traffic at the Source Level,” JEEE/ACM Trans. Networking ， 
Vol.5, [ssue |, pp.71 86, Feb. 1997. 

® CG. Kramer, B. Mukherjee, S. Dixit, Y. Ye, and R. Hirth, “Supporting Differentiated Classes of Service 
in Ethernet Passive Optical Networks,” Journal of Optical Networking, Vol.1, Issue 9, pp. 280 — 298, 
Aug. 2002. 2 

© j Zheng and H.T Mouftah, “ Media Access Control for Ethernet Passive Optical Networks: An Over- 
view,，” IEEE Communications Magazine, Vol.43, No.2, pp. 145 -=150, Feb. 2005. 


无 线 协 议 
这 里 ， 我 们 列 出 了 无 线 局 域 网 的 标准 ， 也 可 从 二 述 网 站 中 下 载 。 这 里 还 有 儿 本 关于 802.11 的 好 
书 ， 以 及 3 篇 引用 率 很 高 的 有 关 IEEE 802. 11 无 线 局 域 网 的 QoS 增强 和 网 络 性 能 的 论文 。 
® A NSIIEEE Standard 802. 11, “Wireless LAN Medium Access Control ( MAC) and Physical Layer 
(PHY) Specification,” 1999 Edition. 
® M.Gast, 802. 11 Wireless Networks: The Definitive Guide, 2 nd Edition, OReilly, 2005. 
e OQ.Ni, L Romdhani, and T. Turletti, “A Survey of QoS Enhancements for IEER 802. 11 Wireless 
LAN,” Journal of Wireless Communications and Mobile Computing , Vol.4, lssue $5, pp:547 — 
577, Aug. 2004. 
e Balachandran, G. M. Voelker, P. Bahl, and P. V. Rangan, “ Characterizing User Behavior and Network 
Performance in a Public Wireless LAN,” ACM SIGMETRICS Performance Evaluation Review , Vol. 30, 
Issue |, June 2002. 
e D. Pilosof, R. Ramjee, D. Raz, Y. Shavitt, and P. Sinha, Understanding TCP Fairness over Wireless 
LAN, INFOCOM, 2003. 
以 下 是 标准 文档 、 一 个 很 好 的 教程 ， 以 及 一 篇 引用 率 很 高 的 有 关 蓝 牙 的 论文 ， 接 下 来 是 有 关 
WiMAX 引用 率 很 高 的 论文 和 书籍 
® Bluetooth Specification Documents http: A//www. bluetooth. com/ English/ Technology/ Building/ Pages/ 
Specification. aspx. 
e P.Bhagwat, “ Bluetooth: Technology for Short - Range Wireless Apps,” JIEEE Internet Computing, 
Vol.5, Issue 3, pp. 96 —103, May/June 2001. 
® A.Capone, M. Gerla, and R. Kapoor, “ Efficient Polling Schemes for Bluetooth Picocells, “ [EEE Inter- 
national Conference on Communications ，June 2001. 
® 7. Abichar, Y. Peng, and J. M. Chang, “ WiMAX.: The Emergence of Wireless Broadband,” 77 Pro- 
fessional, Vol.8, [ssue 4, July 2006. 
e Loutfi Nuaymi, W iMAX: Technology for Broadband Wireless Access, Wiley, 2007. 


设备 驱动 程序 
这 是 一 本 教 你 如 何 编写 Linux 设备 驱动 程序 的 优秀 书籍 。 
e Corbet, A. Rubini, and GCG. Kroah - Hartman, Linux Device Drivers, 3 rd Edition, O’Reilly, 2005. 
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见 问题 解答 


. 在 以 太 网 之 上 的 中， 字 节 顺序 和 位 顺序 分 别 是 什么 ? 


答 : 字 节 顺序 : 高 字 节 顺序 ， 即 首先 传送 高 字 节 。 位 顺序 ， 低位 顺序 。 即 首先 发 送 最 低位 。 


.为 什么 FCS 放 在 尾部 ”而 趾 校 验 和 更 放 在 头 部 ? 


答 : FCS: 出 人 硬件 计算 ， 在 运行 时 添加 和 检查 
IP 校 验 和 : 通常 是 由 软件 计算 、 存 储 和 处 理 


. 为 什么 大 的 带宽 延迟 乘积 (BDP) 不 利于 CSMAZCD? 


答 : 与 长 的 链 路 相 比 ， 大 的 BDP 意味 着 小 帧 ， 当 一 个 小 帧 经 过 一 条 长 链 路 传播 时 ， 基 他 站 点 保持 内 
置 时 ， 这 意味 着 低 的 链 路 效率 。 


.在 半 双 工 千 兆 以 太 网 中 的 问题 是 什么 ? 


答 : 传输 一 个 最 小 帧 的 时 间 可 能 概 小 于 往返 传播 时 间 。 邢 么 冲突 检测 就 不 能 及 时 终止 一 次 冲突 的 传 
输 ， 也 就 是 说 ， 在 发 送 站 点 侦 测 到 冲突 之 前 就 已 经 结束 传输 


- 在 下 浪 以 大 网 传输 时 ， 最 小 帧 的 长 度 是 多 少 (以 米 为 单位 )? 


答 : 64 x8/109 x2 x108 =25.6 米 

为 什么 CSMAZCD 不 能 用 十 无 线 局 域 网 ? 

答 : 如 果 由 于 终端 隐藏 而 不 被 发 送 者 看 见 ， 那 么 在 接收 顺 上 的 冲突 就 不 会 被 发 送 者 检测 到 。 因此 ， 
CD 在 这 里 就 不 起 作用 。 此 外 ,发送 者 不 能 一 边 传输 一 边 侦 听 


. RTSACTS 机 制 为 CSMAZCA 的 元 线 局 域 网 解决 | 么 问题 呢 ? 


答 : 当 数据 帧 被 接收 者 接收 时 ， 通 过 计 : 接 收 者 周 于 的 终端 保持 沉默 〈 收 到 CTS 之 后 ) 的 方式 ， 它 解 
决 了 隐藏 终端 问题 


. 冲突 域 、 广 播 域 和 VLAN 之 问 的 区 别 是 什么 ”( 描述 它们 的 定义 、 它 们 包括 的 范围 ， 以 及 它们 是 否 


可 以 重 车 。) 

答 : 冲突 域 ， 在 这 一 域内 两 个 站 点 不 能 同时 成 功 地 传输 ; 同样 适用 于 集线器 中 的 广播 域 ,但 在 交换 
机 中 减少 为 一 个 端口 。 

广播 域 : 广播 帧 将 被 这 个 域内 的 所 有 站 点 接收 ; 它 也 是 集线器 中 的 冲突 域 ， 但 是 交换 机 中 的 一 组 
闹 11， 

VLAN: 将 一 台 交 换 机 或 一 组 交换 机 人 为 地 分 制 成 广播 域 

将 第 2 层 桥接 与 第 3 层 路 由 进行 对 比 ( 比较 它们 的 转 改 机制、 管理 和 可 扩展 性 ) 

答 : 桥接 : 通过 洪 泛 或 月 学 习 表 、 妈 插 即 用 限制 为 数 千 台 设备 

路 用 : 通过 全 局 或 局 部 信息 表 、 需 要 配置 、 可 扩展 。 

在 一 个 天 的 园区 网 中 能 够 实现 第 3 层 标 接 四 1 为 什么 

答 ; 在 网 区 网 的 每 一 台 桥 接 交换 机 需要 学 习 和 记忆 园区 网 上 的 所 有 主机 ， 这 就 需要 一 张大 的 表 
与 此 同时 ， 当 还 未 学 习 所 有 主机 时 就 会 发 生 频 繁 的 洪 泛 


. 为 什么 我 们 说 ， 网 桥 对 主机 是 透明 的 ， 而 路 由 器 则 不 是 ? 


答 : 在 桥接 由， 无 论 日 的 地 是 否 在 同一 个 局 域 网 ， 主 机 都 会 照样 发 送 帧 ， 在 路 由 中 ， 如 果 上 日 的 地 
不 在 同一 子 网 ， 主 机 会 显 式 地 将 分 组 发 送 到 默认 的 路 由 上 : 因此 ， 主 机 知道 路 由 器 ， 但 不 知道 
网 桥 。 


. 在 透明 网 桥 中 ， 为 什么 需要 一 个 生成 树 ? 


答 : 为 了 消除 折 扑 结构 中 的 回路， 回路 会 使 网 桥 在 不 能 做 出 正确 判断 时 导致 帧 的 循环 


-我们 如 何在 IC 中 设计 MAC? (描述 一 般 的 设计 流程 和 编程 中 所 使 用 的 变量 。) 


设计 流程 : 沉 有 输入 /输出 信号 的 框图 一 每 个 框 /模块 的 状态 机 一 Verilog 或 VDHL 并 行 硬件 编 
程 一 集成 和 模拟 电路 一 版 图 (layout) 和 下 线 送 交 制造 (tape-out) 
变量 : 程序 输出 变量 /信号 作为 并 行 函 数 的 输入 变量 /信号 和 局 部 变量 /信号 


:驱动 程序 是 如 何 发 送 和 接收 帧 ? (利用 硬件 与 中 断 处 理 描述 外 出 和 进入 数据 包 的 处 理 .) 
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答 : 外 出 数据 包 处 理 : 调用 远程 DMA 将 帧 移动 到 接口 卡 ， 将 命令 写 人 寄存 顺 ， 注 册 读 取 状 态 寄 存 

器 的 中 断 处 理 程序 ， 并 发 送 后 续 的 帧 

让 入 数据 包 处 理 : 注册 读 取 状态 寄存 器 中 断 的 中 断 处 理 程序 ， 并 调用 远程 DMA 将 到 帧 移动 公主 

存 中 ， 
15.， 当 网 络 适 配 涡 驱 动 程序 探测 硬件 时 它 想 要 做 什么 ”为 了 什么 ”哪个 中 断 可 能 导致 系统 执行 网 络 适 

配 占 的 驱动 程序 ? 

答 : 1) TIRQ 号 : 将 中 断 处 理 程 序 绑 定 到 一 个 便 件 号 

2) LO 端口 号 : 将 硬件 寄存 天 映射 到 IO 端口 区 域 用 来 读 状 态 和 写 命令 

3) 由 于 帧 到 达 、 传 得 完成 或 异常 传输 的 硬件 中 断 


练习 

















动手 练习 
i. 阅读 下 面 的 两 个 文件 ， 了 解 EEEE 标准 是 如 何 产生 的 。 写 一 个 有 关 标 准 化 过 程 的 总 结 
a. 10 干 睁 以 太 网 联盟 ,，“10 千 兆 以 太 网 技术 概述 : 自 皮 书 ,2001 年 9 月 ,http: //www.10gea.org 
b. http: A/www.ieee802.0rg/3/ efm/ public/sepO1l/agenda_ 1_ 0901.pdf 
.你 可 以 从 http: A/standards.ieee.org/gelieee802/ 下载 IEEE 802 标准 ， 写 下 以 下 项 目的 开发 月 标 ，802. 1w、 
802. 3ac 、802. 15 、802. 16 和 802. 17， 
3. 找到 你 的 PC 机 下 的 网 络 接口 卡 的 MAC 地 址 。 检 查 http: A//standards.ieee.org/regauth/ouiAoui， txt， 与 已 
注册 的 0UI 进行 比较 。 
4. 使 用 噢 探 器 或 类 似 的 软件 ， 看 看 你 捕获 到 的 以 太 网 帧 “类 型 ”字段 中 有 多 少 种 “协议 类 型 ”， 如 果 有 ， 
它们 分 别 属于 什么 传输 /应 用 层 协 议 ? 
5. 找 出 你 网 络 接口 卡 是 运行 在 半 双 芽 还 是 运行 在 全 双 工 模式 
6. 追踪 以 下 协议 的 源 代码 : 
a. HDLC b. PPPok 6 无 线 局 域 网 d. 蓝牙 
解释 在 协议 实 险 中 的 每 个 主 函 数 的 日 的 ， 并 绘制 常 有 卫 数 名 的 流程 图 显示 执行 流程 ， 
7. 经 过 内 核 编译 并 选择 一 些 将 要 模块 化 的 驱动 程序 后 ， 我 们 该 如 何 编 译 驱 动 程序 、 安 装 张 动 程序 ， 并 运行 
这 些 模块 ?请 编写 一 个 小 模块 来 验证 你 的 答案 。 说 明 需 要 什么 样 的 命令 编译 和 安装 你 的 借 块 。 和 如 何 验 证 
是 否 已 成 功 安装 你 的 模块 (提示: 阅读 insmod (8)、rmmod (8) 、lsmod (8).) 
8. 数据 包 的 生命 历程 : 测试 一 个 数据 包 在 驱动 程序 、DMA 和 CSMAZCD 适 配 占 上 分 别 花 费 多 少时 间 ， (你 
可 以 使 用 在 < asmymsr. hh> 中 定义 过 的 “rdtsel” 得 到 过 去 的 CPU 时 钟 周期 .) 


书面 练习 

1. 我 们 知道 32 位 的 JPv4 地 址 可 能 不 够 长 。 那么 48 位 MAC 地 址 足够 长 四 ? 写 一 简短 的 讨论 来 证 明 你 的 
答案 。 

2. 阅读 RFC 1071 和 RFC 1624， 看 看 如 何 计算 IP 校 验 和 。 然 后 动手 利用 下 面 字 的 分 组 进行 练习 : 
0x36f7 Oxf670 0x2148 Ox8912 0x2345 0x7863 0x0076 
如 果 眶 面 的 第 一 个 字 改 成 0x36f6 呢 ?RFC 在 http: /AAwww.ietf.org/rfc.html 上 提供 

3. 计算 CRC 人 码 ， 假 定 消息 为 1101010011, (产生 和 多项式 ) 模式 为 10011， 验证 代码 是 正确 的 

4. 为 什么 日 的 地 址 字段 通常 位 于 帧 的 类 部 ， 调 FCS 字段 位 于 帧 的 尾部 ” 

5. 如 果 我 们 增 大 最 小 以 太 网 帧 ， 将 会 有 哪些 优点 和 缺点 ? 

6. 假设 帧 的 数据 有 效 载荷 添加 了 40 字 节 的 下 和 TCP 头 部 ， 如 果 每 帧 都 是 最 大 的 未 标记 帧 ， 那 么 100Mbps 
以 太 网 可 以 每 秒 携带 多 少 位 的 数据 有 效 载 信 ? 

7. 在 交换 机 转发 前 ， 是 否 应 该 重新 计算 到 达 帧 的 FCS? 

8. 在 以 太 网 帧 中 有 一 个 可 选 的 优先 级 标记 ， 但 不 经 常 使 用 ， 为 什么 会 这 伴 呢 ? 

9. 为 什么 以 太 网 不 能 实现 一 个 复杂 的 〈 如 滑动 窗口 似 ) 流量 控制 机 制 ? 


TD 
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10. 如 果 网 络 接口 卡 在 一 个 共享 网 络 中 以 全 双 工 模式 运行 ， 会 发 生 什么 ? 

11， 交换 机 的 每 个 端口 者 应 该 有 自己 的 MAC 地 址 吗 ? 加 以 讨论 。 

12.， 假设 在 交换 机 地 址 表 中 的 每 个 表 项 需要 记录 MAC 地 址 、8 位 端 、2 位 老化 信息 。 如 果 该 表 可 以 记 
录 4096 项 ， 那 么 最 低 的 内 存 大 小 是 多 少 ? 

13. 假设 5 个 连续 的 1 之 后 用 0 进行 位 填充 。 假设 位 流 中 的 0 和 1 的 概率 是 相等 的 ， 并 且 是 随机 发 生 的 ， 那 
么 位 填充 方案 的 传输 开销 是 什么 ”( 提示: 列 出 一 个 递归 公式 f(n) 以 便 首 先 找到 一 个 n 位 字 串 期 望 的 
开销 位 数 ,) 

14. 编写 一 个 模拟 程序 以 验证 第 13 题 的 数字 答案 是 正确 的 

15. 在 1000BASE-X 中 ， 一 个 64 字 节 的 帧 在 传送 之 前 首先 使 用 8BZ10B 分 组 编码 。 假 设 传播 速度 为 2x10 ， 
那么 以 “ 米 ” 计 的 帧 “长 度 ” 有 多 少 ? (假设 电缆 长 为 5S00m) 。 

16. 两 个 站 点 第 一 次 冲突 后 ， 重 试 5 次 解决 冲突 的 概率 有 多 少 ?( 假设 在 冲突 域 中 只 有 两 个 站 点 ,) 

17. 一 台 具 有 16 个 快速 以 太 网 (100Mbps) 端口 的 交换 机 可 以 处 理 的 最 大 帧 数 是 多 少 ?” 如果 每 个 端口 都 运 
Ft 工 模式 下 ? 

18. 一 个 CPU 以 800 MIPS 执行 指令 。 每 次 可 以 复制 64 位 数据 ， 对 于 每 64 位 字 复 制 需要 6 条 指令 。 ee 
入 的 帆 震 要 复制 两 次 ， 那 么 系统 一 行 最 多 可 处 理 多 少 位 速率 ? (假设 所 有 指令 运行 在 全 800MIPS 速率 ， 

19. 一 个 1500 字 节 的 帧 沿路 径 经 过 5 台 交 换 机 。 每 条 链 路 具有 带宽 为 100Mbps， 长 度 为 100m， en 
2x1l0 m/s。 假设 在 每 台 交 换 机 二 的 排队 和 处 理 延迟 为 5ms， 那么 对 于 该 数据 包 ( 帧 ) 的 近似 端 到 端 延 
述 旺 和 多少 ? 

0， 如 果 误 码 率 是 10“， 那 么 100 个 1000 字 节 的 帧 的 平均 误差 概率 是 多 少 ? 


[5] 
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下 联网 协议 (TIP) 层 ， 又 称 为 OSIT 模型 的 第 3 层 或 网 络 层 ， 它 提供 了 一 种 主机 到 主机 的 传输 服务 ， 
这 是 所 联网 协议 栈 中 最 重要 的 一 层 并 是 比 链 路 层 复 杂 得 多 ， 因 为 它 在 任意 两 台 主 机 之 间 提 供 连 通 性 ， 
而 两 台 主 机 可 能 相距 数 千里 之 逼 。IP 层 的 最 大 挑战 是 如 何在 两 台 主 机 之 间 有 效 地 提供 可 扩展 的 连通 
性 。 上 有 具体 而 言 ， 它 面临 着 连通 性 、 可 扩展 性 和 高 效 的 资源 共享 问题 。 首 先 ， 关 键 问 题 是 如 何 将 在 全 球 
网 络 中 任意 位 置 的 两 公主 机 连接 起 来 其次， 将 分 布 在 世界 各 地 的 数 十 亿 台 主机 连接 起 来 ， 需 要 可 扩 
展 的 寻 址 、 路 由 和 分 组 转发 机 制 。 最 后 ， 中 间 设 备 ( 如 路 由 器 ) 所 具有 的 处 理 能 力 和 带宽 等 有 限 资源 
必须 有 效 地 共享 ， 从 而 为 终端 用 户 提 供 满 意 的 服务 

为 了 提供 主机 到 主机 的 传输 服务 还 需要 控制 平面 机 制 和 数据 平面 机 制 。 控制 平面 处 理 控制 协议 ， 
确定 分 组 应 该 如 何 处 理 。 例 如 ， 作 为 IP 层 最 重要 功能 之 一 的 路 由 ， 主 要 就 是 为 了 能 在 任意 两 台 主 机 之 
问 找 到 一 条 路 径 ， 并 在 路 由 器 专门 设计 的 数据 结构 ( 称 为 路 由 表 或 转发 表 ) 中 存储 路 由 信息 。 另 一 方 
而 ， 数 据 平 面 解 决 如 何 处 理 分 组 ,例如 ,IP 层 的 男 一 个 重要 功能 一 一 转发 ， 是 根据 路 由 表 将 分 组 从 路 
由 器 进 入 网 络 接 口传 送 到 外 出 网 络 接 口 上， 还 需要 其 他 机 制 支持 连通 性 功能 ， 如 地 址 配置 、 地 址 翻译 
和 错误 报告 ， 本章 将 介绍 互联 网 中 使 用 的 控制 平面 和 数据 平面 的 所 有 主要 机 制 ， 这 些 机 制 提供 主机 人 到 
主机 的 连接 服务 

本 章 的 组 织 结构 : 互联 网 协议 层 的 设计 问题 ， 将 在 4. 1 节 中 讨论 。 数 据 平面 和 控制 平面 的 机 制 及 
其 开源 实现 ,将 在 后 面 的 章节 中 描述 。 对 于 数据 平面 机 制 ， 我 们 介绍 互联 网 协议 版 本 4 (IPv4) 并 说 
明 它 是 如 何以 可 扩展 的 和 有 效 的 方式 提供 主机 到 主机 的 服务 。 在 4.2 节 结 束 时 ， 我们 将 说 明 网 络 地 址 
翻 详 (NAT) 的 机 制 ， 它 被 认为 是 解决 IPv4 地 址 短缺 问题 的 一 个 暂时 的 解决 方案 。 在 4.3 节 中 ， 将 介 
绍 互 联网 协议 版 本 6 (IPv6) 以 解决 IPv4 中 过 到 的 几 个 问题 

接 下 来 的 4 节 将 讨论 控制 平面 机 制 ， 在 4.4 节 中 ,我 们 将 学 习 地 址 管理 机 制 ， 包 括 地 址 解析 协议 
(ARP) 和 动态 主机 IP 配置 协议 (DHCP)。 在 4.5 节 中 介绍 互联 网 错误 处 理 协议 ， 互 联网 错误 控制 协 
以 (ICMP)。IP 层 最 重要 的 控制 机 制 是 路 由 ， 即 发 现 两 台 主 机 之 问 的 路 径 。 这 些 互 联网 路 由 协议 将 在 
4.6 节 中 详 述 并 说 明 如 何以 可 扩展 的 方式 进行 路 由 。 最后, 在 4.7 节 中 ,我 们 复习 组 播 路 由 协议 ， 即 从 
点 到 点 路 由 到 多 点 到 多 点 路 由 的 一 种 扩展 。 


4. 1 ”一般 问题 

TCP/AIP 参考 模型 中 的 网 络 层 或 IP 层 的 目的 是 从 发 送 主 机 向 接收 主机 传输 分 组 。 不同 于 链 路 层 提 
供 的 服务 (通信 是 在 两 台 相 和 邻 主机 之 间 实 现 的 ) ， 网 络 层 提供 的 服务 允许 任意 两 台 主 机 之 间 的 通信 ， 
无 论 它们 之 间 有 多 远 。 这 种 连通 性 的 要 求 引入 了 三 个 一 般 性 的 问题 ， 即 如 何 通过 链 路 层 技术 将 网 络 连 
接 起 来 、 如 何在 全 球 范 围 确定 一 台 主 机 ， 以 及 如 何在 两 台 主 机 之 间 找 到 一 条 路 径 并 能 沿路 径 转 发 分 组 ， 
对 于 这 些 问 题 的 解决 方案 必须 具有 很 强 的 可 扩展 性 ， 以 便 能 够 容纳 数 十 亿 人 台 主 机 之 问 的 连接 。 最 后 ， 
还 需要 解决 如 何 有 效 地 共享 有 限 的 资源 〈 如 带宽 ) 。 


4. 1. 1 连通 性 问题 

网 际 互联 

为 了 能 够 从 一 台 主 机 向 另 一 台 主 机 传输 分 组 ， 连 通 性 当然 是 基本 的 要 求 。 为 了 实现 这 种 主机 级 的 
连通 性 ， 雷 要 解决 许多 问题 : 首先 ， 主 机 如 何 连接 起 来 ”主机 可 能 通过 不 同 的 链 路 层 技术 (如 以 太 网 
或 无 线 局 域 网 ) 连接 到 网 络 上 。 正 如 我 们 在 第 3 音 中 所 讲 的 ， 对 这 些 链 路 层 技术 的 基本 限制 就 是 距离 
也 就 是 说 ,一 个 局 域 网 的 覆盖 范围 不 能 超过 一 定 的 距离 。 还 有 一 个 限制 就 是 可 以 共享 局 域 网 带宽 的 市 
不 数 。 因 此 ， 它 需要 大 量 的 局 域 网 和 网 际 互联 设备 ， 将 分 散在 世界 各 地 的 主机 组 织 起 来 。 一 组 连接 起 
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来 的 网 络 称 为 互联 网 络 ， 或 简称 为 互联 网 。 日 前 广泛 使 用 的 全 球 互联 网 络 被 称 为 “因特网 "。 将 网 络 
连接 成 互联 网 的 互联 设备 通常 和 你 为 路 帆 器。 任意 两 台 主 机 之 间 的 连通 性 可 以 通过 路 由 器 将 局 域 网 连接 
成 一 个 全 球 互 联网 络 。 图 4-1 显示 了 有 具有 路 由 器 和 包括 各 种 局 域 网 的 例子 

寻 址 以 太 网 快速 以 太 网 

在 网 络 层 ， 连 通 性 的 第 二 个 问题 是 如 何在 全 球 互联 网 中 
确定 某 台 主机 ， 这 实际 上 是 寻 址 问题 。 与 链 路 层 的 寻 址 不 ”出 
问 ， 在 网 络 层 的 主机 地 址 需要 网 络 所 在 地 的 全 球 标识 符 。 换 
名 话说 ， 一 个 主机 地 址 需要 确定 主机 所 属 的 网 络 和 主机 本 
身 。 这 种 地 址 称 为 层次 化 地 址 ， 为 一 台 主 机 分 配 一 个 网 络 层 
地 址 也 会 出 现 一 个 新 的 问题 : 一 台 主 机 除了 它 的 链 路 地 址 
外 ， 还 将 为 每 个 网 络 接口 卡 分 配 一 个 网 络 地 址 〈 或 更 多 地 
址 )。 因 此 ， 在 这 两 个 层次 之 间 的 地 址 解析 就 会 成 为 一 个 新 
的 问题 。 与 寻 址 有 关 的 问题 就 是 如 何 将 网 络 层 地 址 分 配给 主 
机 。 在 现实 中 ， 它 既 可 以 自动 地 也 可 以 手动 地 完成 。 如 果 它 
是 自动 地 完成 的 ， 地 址 就 可 以 静态 地 或 动态 地 分 配 。 在 大 多 
数 情 况 下 ， 一 台 主 机 更 想 自 动 和 动态 地 配置 其 地 址 ， 因 此 就 需要 一 个 动态 主机 配置 协议 

路 由 和 转发 

假定 可 以 确定 一 台 主 机 ， 接 下 来 的 问题 就 是 如 何 找到 从 一 台 主 机 向 另 一 台 主 机 传输 分 组 的 一 条 路 
径 ， 路 径 由 相 邻 路 由 器 串联 而 成 。 查找 路 径 并 沿路 径 传 输 分 组 的 问题 分 别称 为 路 由 和 转发 。 在 控制 平 
面 上 运行 的 路 由 协议 负责 在 两 台 主 机 (或 两 个 网 络 ) 之 间 查 找 路 径 。 构 建 路 由 表 是 为 了 记录 路 由 的 结 
果 。 当 一 个 分 组 到 达 某 台 路 由 器 时 ， 按 照 匹配 分 组 的 目的 地 址 的 路 由 表 表 项 ， 它 会 被 转发 到 路 由 路 径 
上 [的 下 一 跳 。 这 里 ， 我 们 将 路 由 和 转发 区 别 得 很 清晰 : 路 由 是 通过 路 由 协议 来 实现 的 ， 它 需要 交换 路 
由 消息 并 计算 最 短 的 路 径 ， 而 转发 是 通过 主机 或 路 由 器 查找 路 由 表 并 查找 转发 分 组 最 合适 的 网 络 接口 
来 进行 ， 


4.1.2 可 扩展 性 问题 

当 我 们 考虑 连接 到 互联 网 上 的 主机 和 网 络 数量 时 ， 可 扩展 性 对 网 际 互联 很 重要 。 可 扩展 性 对 路 由 
和 转发 特别 重要 一 一 因为 在 数 十 亿 台 主机 中 有 效 地 找到 一 条 到 达 一 台 主 机 的 路 径 非常 具有 挑战 性 。 我 
们 将 在 本 昔 中 看 到 如 何 使 用 网 络 的 层次 结构 来 解决 可 扩展 性 问题 。 在 互联 网 上 上， 将 节点 分 组 成 子 网 络 ， 
通常 就 是 子 网 (subnets)。 每 个 子 网 代表 一 个 逻辑 广播 域 ， 因 此 子 网 内 的 所 有 主机 可 以 直接 相互 发 送 分 
组 而 不 再 要 路 由 天 的 玫 助 ， 多 个 子 网 组 成 域 。 域内 路 由 和 域 间 路 由 是 由 不 同 的 路 由 协议 分 别 来 完成 的 ， 
路 由 表 中 的 表 项 可 能 代表 一 个 子 网 或 一 个 域 
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R: 路 由 器 H: 主机 
图 4-1 互联 网 的 例子 


行动 准则 : 桥接 和 路 由 

桥接 和 路 由 有 很 多 的 相似 之 处 ， 上 比如， 两 者 都 可 以 用 于 连接 两 个 或 多 个 局 域 网 ， 两 者 都 能 查 表 转 
发 分 组 。 然而， 在 其 他 方面 它们 有 着 很 大 的 区 别 。 这 里 ， 网 桥 是 各 种 网 桥 设 备 的 统称 ， 无 论 是 两 端口 
还 是 多 端口 的 

分 层 : 网 桥 是 一 种 链 路 层 设 备 ， 而 路 由 器 是 一 种 网 络 层 设备 .网 桥 根据 链 路 层 的 帧 头 部 信息 (如 
目的 MAC 地 址 ) 转发 帧 ， 而 路 由 器 根据 网 络 层 头 部 信息 (如 目的 地 IP 地址 ) 转发 分 组 。 

表 : 网 桥 一 般 是 通过 透明 地 自学 习 来 构建 转发 表 ， 而 路 由 器 是 通过 运行 路 由 协议 显 式 地 构建 路 由 
表 。 当 多 台 网 桥 连接 时 ， 网 桥 还 需要 运行 一 种 生成 树 协议 以 便 避 免 出 现 循环 。 

冲突 域 与 广播 域 : 网 桥 用 来 隔离 冲突 域 ， 而 路 由 器 用 于 分 隔 广播 域 。 冲 突 域 指 的 是 在 一 个 网 段 中 ， 
主机 共享 相同 的 传输 介质 ， 如 果 有 两 个 以 上 的 分 组 同时 发 送 时 就 可 能 发 生 冲 突 。 一 个 元 端口 网 桥 通过 
在 交 个 端口 上 分 隔 一 个 冲突 域 可 以 将 一 个 冲突 域 分 成 于 个 。 然 而 ， 所 有 这 些 冲 突 域 仍 处 在 同一 广播 域 
内 ， 除 非 创建 了 虚拟 局 域 网 ， 广 播 域 是 指 在 网 络 内 的 所 有 节点 可 以 经 过 链 路 层 的 广播 互相 通信 。 从 互 
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联网 协议 的 角度 来 看 ， 一 个 广播 域 对 应 于 一 个 上 P 子 网 。 一 个 n 端口 路 由 器 能 够 将 一 个 广播 域 分 成 nn 个 
广播 域 。， 当 在 骨干 网 桥 上 创建 虚拟 局 域 网 时 ， 广 播 域 的 概念 就 变 得 非常 重要 了 在 同一 个 虚拟 局 域 网 
内 的 所 有 主机 ， 不 管 其 中 包含 多 少 台 网 桥 ， 都 处 在 同一 广播 域内 并 且 能 够 接收 到 所 有 数据 链 路 层 的 广 
播 ， 另 一 方面 ， 在 两 个 不 同 虚拟 局 域 网 中 的 两 台 主 机 只 有 通过 路 由 器 才能 通信 ， 即 使 它们 连接 到 同一 
网 桥 也 是 如 此 

可 扩展 性 : 由 于 广播 的 要 求 ， 桥 接 与 路 由 相 比 可 扩展 性 不 高 ， 正 如 前 面 所 述 ， 由 一 台 或 多 台 网 桥 
连接 的 主机 仍 处 在 同一 个 广播 域内 ， 它 们 应 该 能 够 接收 到 广播 ， 因 此 ， 如 果 将 数 百 万 台 主 机 桥接 起 来 ， 
就 很 容易 把 广播 消息 发 送 到 所 有 主机 ， 同时， 当 某 个 MAC 地 址 还 没有 被 学 习 到 转发 表 中 时 ， 将 会 使 用 
洪 泛 的 方法 转发 帧 ， 这 在 大 型 互联 网 络 中 效率 会 非常 低 。 

关于 路 由 ， 有 多 个 问题 需要 解 次 ， 如 第 1 章 所 述 。 现 在 应 该 清楚 ， 考 虑 到 可 扩展 忻 需求 ， 为 互 
联网 路 由 所 选择 的 解决 方案 应 该 是 逐 跳 的 路 用， 最 短路 径路 由 是 按照 每 个 目的 地 =- 网 络 粒 度 来 完成 
的 。 如 何 计算 路 径 以 及 如 何 收集 路 由 信息 也 取决 于 可 扩展 性 ， 对 于 域内 路 由 ， 可 扩展 性 不 成 问题 ， 
优化 往往 会 更 加 重要 。 因 此 ， 域 内 路 由 的 目标 之 一 就 是 有 效 地 共享 资源 ， 这 是 通过 找到 每 一 对 源 到 
目的 地 之 间 的 最 短路 径 实 现 的 。 路 由 信息 既 可 以 仅 通 过 相 邻 路 由 器 之 间 信 息 交 换 也 可 以 向 同一 域内 
的 所 有 路 由 器 洪 泛 路 由 信息 来 实现 ， 因 此 ， 荆 内 路 由 决策 〈( 求 最 短路 径 ) 既 可 以 根据 部 分 路 由 信息 
岂可 根据 全 局 路 由 信息 。 男 一 方面 ， 对 于 域 间 路 由 ， 可 扩展 性 比 最 优 性 更 重要 。 域 间 路 由 需要 考虑 
的 男 一 个 问题 是 ， 由 不 同 的 域 管 理 员 做 出 的 管理 策略 ， 他 们 可 能 希望 禁止 茶 些 流量 通过 某 些 域 ， 因 
此 ， 基 于 策略 的 路 由 比 有 效 的 资源 共享 更 重要 。 对 于 可 扩展 性 和 基于 策略 的 路 由 ， 域 间 路 由 通常 仅 
交换 相 邻 路 由 器 的 汇总 信息 并 且 根 据 局 部 路 由 信息 进行 路 由 决策 。 我 们 将 在 4.6 节 更 详细 地 讨论 这 
里 所 提出 的 路 由 间 题 ， 








4.1.3 资源 共享 问题 

无 状态 的 和 不 可 靠 的 

最 后 ， 让 我 们 解决 资源 共享 问题 ， 在 互联 网 上 ， 资 源 可 以 月 由 共享 而 没有 任何 网 络 层 的 控制 。 互 
联网 协议 为 上 层 提 供 一 种 无 连接 服务 异型 。 在 无 连接 服务 模型 之 下 ， 分 组 需要 在 它们 的 头 部 携带 足够 
的 信息 以 便 使 中 间 路 由 器 能 够 正确 地 路 由 并 将 分 组 转发 到 目的 地 ,因此 ,在 发 送 分 组 之 前 就 不 需要 建 
并 机制 。 这 是 共享 网 络 资源 最 简单 的 方法 。 无 连接 服务 模型 也 意味 着 尽 最 大 努力 服务 ， 里 然 它 不 必 如 
此 。 当 转发 分 组 时 ， 路 由 器 只 是 根据 路 由 表 尽 最 大 努力 地 将 分 组 转发 到 目的 地 。 如 果 出 错 了 ， 如 分 组 
于 失 、 未 能 到 达 目 的 了 地， 或 发 送 后 失去 顺序 ， 那 么 网 络 并 不 做 任何 事情 去 解决 问题 ， 网 络 只 是 尽 最 大 
努力 发 送 分 组 ， 这 也 意味 着 由 网 络 层 提供 的 服务 是 不 可 靠 的 

因为 网 络 层 提供 的 服务 是 不 可 靠 的 ， 所 以 就 需要 一 种 错误 报告 机 制 去 通知 源 和 源 主机 的 上 一 层 。 
发 出 的 错误 报告 包括 如 何 传递 错误 信息 、 如 何 确定 错误 的 类 型 、 如 何 让 源 知 道 哪些 分 组 造成 错误 、 怎 
样 在 源 处 理 错误 信息 ， 以 及 是 否 应 该 限制 错误 消息 所 使 用 的 带宽 。 

资源 共享 的 最 后 问题 是 安全 。 安 全 问题 有 多 个 方面 。 访问 控制 就 是 处 理 谁 有 权 访 问 网 络 资源 
数据 安全 涉及 加 密 分 组 保护 数据 不 被 锣 听 。 最后， 还 有 系统 安全 问题 ， 它 保护 主机 不 被 人 侵 或 病毒 
攻击 。 我 们 将 这 部 分 的 讨论 放 到 第 8 曹 进 行 ， 虽 然 有 些 人 会 认为 访问 控制 和 数据 安全 可 以 在 网 络 层 
解决 。 


4. 1.4 1IP 层 协 议和 分 组 流 概述 

图 42 给 出 了 本 草 所 讨论 的 协议 路 标 。 当 主机 接 通 电源 时 ， 可 以 使 用 DHCP 协议 配置 其 IP 地 址 、 
了 网 掩 码 、 上 默认 路 由 融和 等 。 主 机 正确 配置 之 后 ,， 便 从 TCP 或 UDP 等 上 层 发 送 一 个 分 组 然后 再 由 IP 层 
人 处理 ， 以 确定 如 何 转 发 分 组 。 不管 分 组 是 否 能 够 直接 发 送 到 位 于 同一 子 网 的 接收 方 还 是 到 转发 分 组 的 
路 由 器 ， 部 要 使 用 ARP 协议 将 接收 方 的 他 地址 翻译 成 它 的 链 路 层 地 址 (MAC)。 如 果 在 IP 处 理 中 有 有 
-个 错误 ,就 利用 ICMP 协议 向 产生 最 初 PP 分 组 的 源 主 机 发 送出 错 信 息 。 如 果 将 分 组 发 送 到 路 由 器 ， 
通 带 是 默认 路 有 由 吾 ， 路 电器 根据 分 组 的 目的 地 址 和 路 由 表 中 的 路 由 信息 将 分 组 转发 。 路 由 表 是 由 运行 
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在 路 由 器 三 的 路 由 协议 来 维护 的 ， 当 分 组 介 达 接收 方 时 ， 分 组 就 被 接收 并 由 网 络 协议 处 理 ， 如 果 没 有 
错误 ， 它 就 被 发 送 到 相应 的 上 层 协议 。 如 果 因 为 隐私 或 安全 原因 而 使 用 了 私有 地 址 ， 那么 就 使 用 网 络 
了 地址 翻译 协议 (NAT) 翻译 IP 地 址 和 和 JP 分 组 的 传输 层 标识 符 (TCPAUDP 端口 号 ) 以 便 实现 全 款 互联 
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图 4-2 本 童 讨论 的 协议 


开源 实现 4.1: 调用 图 中 的 IP 层 分 组 流 

概述 

IP 层 位 于 互联 网 协议 栈 中 的 链 路 层 之 上 和 传输 层 之 下 。 利 用 分 层 方 法 ， 就 应 该 在 相 邻 层 之 间 提 供 
接口 因此，IP 层 的 接口 分 别 包括 与 链 路 层 的 和 传输 层 的 。 正 如 在 第 3 章 中 所 述 ， 我 们 通过 分 组 的 接 
收 路 径 和 分 组 的 发 送 传输 路 径 研 究 这 些 接 口 。 在 接收 路 径 中 ， 要 从 链 路 层 接 收 分 组 ， 然 后 传递 给 传输 
层 协议 ， 包 括 TCP、UDP 和 原始 IP 套 接 字 接口 。 在 发 送 传 输 路 径 上 ， 从 一 种 传输 层 协 议 接 收 分 组 然后 
再 传递 给 链 路 层 。 

接收 路 径 

网 络 接口 卡 收 到 一 帧 后 将 触发 一 个 中 断 ， 中 断 处 理 程序 调用 net rx _action () 处 理 传 入 的 帧 ， 如 
第 3 章 所 述 ， 调 用 网 络 层 协议 处 理 程序 的 实际 函数 是 netif _ receive _skb ()。 然 后 调用 backlog 
dev. poll () 进 行 注册 以 便于 处 理 以 下 的 接收 操作 。 如 图 4-3 所 示 ， 当 注册 到 sk buff 中 的 协议 类 型 是 
IP 协议 时 ， 将 调用 ip rcv() 作为 协议 处 理 程序 。 分 组 然后 经 过 多 个 IP 层 协 议 函 数 ， 这 些 将 在 本 章 稍 后 
讨论 。 如 果 分 组 是 发 向 本 地 主机 的 ， 那 么 就 调用 ip _ local deliver () ， 然 后 调用 ip local deliv- 
er finish() 将 分 组 发 送 到 传输 层 协议 处 理 程序 。 处 理 程序 既 可 以 是 raw v4 input ()、 udp_ rcv 
()， 也 可 以 是 tcp v4 _rcv()， 具 体 取决 于 上 层 协 议 是 人 P 套 接 字 接 口 、UDP 协议 ， 还 是 TCP 协议 。 

传输 路 径 

传输 路 径 也 在 图 4-3 中 显示 。 上 层 协议 将 分 组 推 到 IP 层 后 就 进入 它 的 队列 。 调 用 ip append 
data()、ip append page () 或 ip queue xmit () 将 分 组 发 送 到 IP 层 ,有 具体 取决 于 所 使 用 的 传输 层 
协议 。 为 了 避免 太 多 的 小 分 组 发 送 ， 前 两 个 函数 首先 在 一 个 临时 缓存 上 存储 数据 ， 然 后 针对 临时 缓冲 
区 调用 ip push pending frames()， 实际 上 也 就 是 将 数据 打包 成 合适 大 小 的 分 组 。 所 有 这 些 函 数 
都 将 调用 dst_output () ， 随 后 调用 虚拟 函数 skb - >dst - >output () 注册 到 sk buff 以 便 如 果 网 
络 层 协议 为 PP 就 调用 网 络 层 处 理 程序 ip output () 。 如 果 不 需要 分 段 ， 那 么 ip finish output2 () 
将 通过 net tx action () 将 分 组 发 送 到 链 路 层 ， 如 第 3 章 所 述 。 

练习 

沿 着 接收 路 径 和 传输 路 径 跟 踪 源 代码 以 便 观 察 在 这 两 条 路 径 上 的 函数 调用 细节 。 
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图 4-3 ”调用 图 中 的 分 组 流 
性 能 问题 : IP 层 内 的 延迟 
图 4-4 显示 传输 64 字 节 的 ICMP 分 组 时 ， 重 要 的 IP 层 函 数 的 延迟 分 解 。 总 的 延迟 约 4.42us， 瓶 颈 
函数 ip finish _ output2 () 占 总 处 理 时 间 的 50% 以 上 。 正 如 在 开源 实现 4.1 中 所 述 ，ip finish 
output2 () 将 分 组 发 送 到 链 路 层 。 在 调用 net_tx_action () 前 ， 它 需要 将 以 太 网 头 部 添加 到 分 组 的 
前 面 。 这 种 添加 任务 调用 内 存 复制 并 因此 要 比 其 他 函数 消耗 更 多 的 时 间 。 
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图 4-4 在 全 层 中 传输 ICMP 分 组 产生 的 延 
图 4-5 描述 了 IP 层 中 分 组 接收 函数 的 延迟 。 时 间 消 耗 多 的 前 4 名 函数 为 ip route input () 
(26% )、 ip local deliver_finish() (24%)、ip rcv() (17% ) 和 ip sev finiskh () 
(16% )。ip_route input () 在 查询 路 由 表 时 消耗 时 间 。ip local deliver finish() 去 掉 TP 头 
部 ， 通 过 散 列 表 查 找 以 便 找到 分 组 的 正确 传输 层 协议 处 理 程序 ， 然 后 再 把 它 传 递 给 处 理 程序 。 ip reov 
() 验证 IP 分 组 中 的 头 部 校 验 和 字段 。 最 后 ，ip rcv finish() 更 新 路 由 表 的 统计 值 。 
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图 4-5 IP 层 中 接收 1CMP 分 组 产生 的 年 迟 


4.2 数据 平面 协议 : 互联 网 协议 

在 本 节 中 ， 我 们 首先 学 习 当前 版 本 的 互联 网 协议 一 一 PPv4， 在 IPv4 中 ， 因 为 安全 和 地 址 耗 尽 的 原 
因而 采用 一 种 特殊 类 型 的 地 址 ， 称 为 和 有 IP 地址。 在 4.2.2 他， 我 们 学习 网 络 地 址 翻译 (NAT) 协 
议 ， 它 让 使 用 私有 地 址 的 主机 能 够 访问 互联 网 


4.2.1 互联 网 协议 版 本 4 
互联 网 协议 ， 常 称 为 P 协议 ， 蚌 互联 网 中 使 用 的 一 种 关键 机 制 以 便 提供 主机 间 的 传输 服务 。IP 协 
汉 有 2 个 版 本 : 协议 版 本 4 (IPw4)， 日 前 互联 网 使 用 的 ; 协议 版 本 6 (IPv6)， 用 于 下 一 代 互 联网 





IPv4 协议 定义 在 RFC 791 中 ， 而 IPy6 定义 在 RFRC2460 中 。 我们 首先 介绍 IP 寻 址 模型 ， 并 利用 该 模 地 
解释 互联 网 是 如 何 提供 连通 性 的 
IPv4 寻 址 


在 构建 主机 到 主机 之 间 连 通 性 时 ， 首 先 需 要 有 一 个 全 球 性 的 和 唯一 的 标识 主机 的 寻 址 方案 。 主 机 
经 过 一 个 接口 (如 以 太 网 接口 卡 ) 连接 到 一 个 网 络 上。 某 些 主机 和 路 由 鼎 可 以 配备 多 个 网 络 接 口 。 对 
于 每 个 网 络 接 口 ， 需 要 使 用 一 个 地 址 来 标识 接口 以 便 发 送 和 接收 分 组 。 为 了 能 够 在 数 十 亿 主 机 之 间 找 
到 一 个 网 络 接口 ， 我 们 震 要 一 种 层次 化 的 结构 来 全 局 地 组 织 和 定位 IP 地 址 ，IP 地 址 的 层次 化 结构 与 邮 
政 地 址 非常 相似 我们 家 庭 的 邮政 地 址 是 由 编号 、 街 道 、 城 市 和 国家 组 成 ， 所 以 邮局 能 够 很 容易 地 确 
定 我 们 的 邮件 要 发 送 到 哪里 。 同 样 ，IP 寻 址 方案 具有 层次 化 的 结构 ， 以 便 中 间 路 由 器 很 容易 地 识别 分 
组 应 该 发 送 到 的 网 络 。. 

每 个 IP 地 址 有 32 位 (4 字 节 ) 长 ， 并 由 两 部 分 组 成 : 网 络 地 址 和 主机 标识 符 (ID)。 通常 ， 将 一 
个 地 址 写成 点 分 十 进 制 标记 法 。 例 如 ， 在 图 4-6 中 ，IP 地 址 的 前 8 位 是 10001100， 这 相当 于 十 进 制 的 
140。IP 地 址 的 4 个 十 进 制 数 是 由 点 分 并 的 

140 123 1.1=10001100 01111011 00000001 00000001 


140 123 I 1 

图 4-6 ”IP 地址 的 点 分 十 进 制 表 示 法 
IP 使 用 一 种 有 类 的 寻 址 方案 。 一共 定义 了 5 类 地 址 ， 如 图 4-7 所 示 。 所 有 地 址 类 都 有 一 个 网 络 地 
址 和 一 个 主机 标识 待 ， 但 它们 在 两 个 部 分 的 长 度 会 ei A 类 地 址 具有 8 位 网 络 地 址 和 24 位 主机 
标识 符 。 对 于 IPv4， 互 联网 可 以 容纳 2 个 A 类 网 络 地 址 ， 每 个 A 类 网 络 容纳 高 达 2”- 2 台 主 机 (2 个 
特殊 地 址 保留 ， eg tt gp pt 一 个 BB 
类 网 络 和 一 个 C 类 网 络 分 别 最 多 可 以 容纳 2" -2 台 主 机 和 2 -2 台 主 机 。D 类 地 址 为 组 播 地 址 ,允许 
多 点 到 多 点 的 传输 。 我 们 将 在 4.7 节 讨 论 全 组 播 。 第 五 类 ， 从 地 址 前 级 11110 开始 ， 预 留用 于 将 来 

使 用 
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位 0123 示 8 16 34 31 
本 站 0.0.0.0to 
A 类 mm 络 | 机 127.255 255.255 
. 128 0.0.0 to 
B 类 |10| 网 络 主机 | 191.255 255255 
一 1920001t0 
c 类 |110| 网 络 E 机 i 
a 22400.014o 
Dos [TIO 组 播 地 址 239.255.255 255 
24000010 
8 类 | 22411 保留 255 .255.255 255 














图 4-7 有 类 JPv4 地 址 格式 

给 定 有 类 地 址 的 起 始 位 ， 如 图 4-7 所 示 ， 每 一 类 地 址 的 范围 也 是 固定 的 。A 类 地 址 的 可 六 范 用 从 
0. 0.0.0 ~ 127. 255. 255. 255. (注意 ，0. 0.0. 078 保留 给 本 地 ， 而 127. 0. 0. 078 保留 用 于 回环 测试 )。 从 
128. 0. 0.0 ~ 191. 255. 255. 255 以 及 从 192. 0. 0. 0 ~ 223. 25$. 255. 255 分 别 用 于 B 类 和 CC 类 地 址 。D 类 地 
址 的 范围 为 从 224. 0. 0.0 ~ 239. 0.0.0。 最 后 ， 从 240. 0. 0.0 ~ 255. 255. 255. 255 预 贸 用 于 将 来 合用 。( 注 
意 ，255. 255. 255. 255 是 子 网 中 的 一 个 广播 地 址 ,) 

每 类 中 郁 有 一 些 邮 址 保留 用 于 特殊 用 途 。 如 果 主 机 标识 符 为 0， 研 用 来 代表 一 个 子 网 例如 ， 
140. 123. 101. 0 是 一 个 B 类 子 网 地 址 。 另 一 方面 ， 如 果 所 有 的 主机 标识 符 都 是 1， 它 就 用 于 在 该 子 网 中 的 
广播 ,最 后 ， 当 源 主 机 还 不 知道 它 自己 的 地 址 时 ，IP 地 址 255. 255. 255. 255 用 于 在 IP 子 网 中 广播 分 组 ， 
例如 ， 妾 主机 需要 联系 DHCP 服务 需 获 取 其 中 地 址 时 就 是 如 此 .我 们 将 在 4.4 节 中 讨论 DHCP 协议 

IP 子 网 划分 

一 个 IP 地 址 的 网 络 地 址 应 该 唯一 地 标识 一 个 物理 网 络 。 然 市 ， 一 个 物理 网 络 通常 采用 局 域 网 技术 
构建 ， 如 第 3 曹 所 述 . 对 于 一 个 A 类 或 B 类 网 络 ， 大 量 的 主机 标识 符 远 远大 于 任何 局 域 网 技术 所 能 够 
支持 的 主机 数 。 因 此 ， 在 A 类 或 B 类 网 络 中 期 待 只 有 一 个 物理 网 络 或 局 域 网 是 不 切实 际 的 。 因 此 ,一 
个 拥有 A 类 或 B 类 甚至 C 类 网 络 地 址 的 组 织 往 往 把 自己 的 网 络 分 成 多 个 子 网 。 在 逻辑 |-， 在 同一 子 网 
内 的 两 台 主 机 能 够 应 用 链 路 层 技术 直接 相互 发 送 分 组 ， 而 不 必 通 过 路 由 器 传递 。 为 了 维护 IP 地 址 的 层 
次 化 结构 ， 所 有 在 同一 子 网 内 的 主机 在 共 IP 地址 中 必须 具有 相同 的 前 组 〈 最 左边 的 位 ) 。 因 此 ， 部 分 
主机 标识 符 是 用 来 表示 A 类 、B 类 、C 类 网 络 中 的 子 网 地 址 ， 如 图 4-8 所 示 。 用 来 表示 子 网 地 址 的 位 
数 取 决 于 该 组 织 管理 员 需 要 的 子 网 数 和 子 网 内 的 主机 数 。 例 如 ， 具 有 8 位 子 网 地 址 和 8 位 主机 标识 符 
的 B 类 地 址 将 有 2 个 子 网 ， 每 个 子 网 具有 2 -2 台 主 机 。 
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图 4-8 IP 子 网 寻 址 

为 了 确定 两 台 主 机 是 否 在 同一 个 子 网 内 ， 将 子 网 掩 码 标记 应 用 于 子 网 划分 。 子 网 掩 码 指示 一 个 IP 地 
址 最 左边 的 地 址 位 长 度 ， 这 用 作 子 网 地 址 。 继 续 前 面 的 B 类 地 址 子 网 划分 的 例子 ， 子 网 地 址 就 是 32 位 IP 
地 址 的 最 左边 24 位 。 利 用 两 种 标记 法 来 表示 子 网 掩 码 。 首 先 ， 我 们 可 以 使 用 一 个 32 位 的 字 串 ， 其 中 子 
网 地 址 部 分 和 主机 部 分 相对 应 地 填充 了 1 和 0 来 表示 子 网 掩 码 ， 如 我 们 例子 中 的 255. 255. 255.0。 我们 也 
可 以 将 一 个 他 地址 表示 为 140. 123. 101.0/24， 这 里 /24 表示 子 网 掩 公 是 24 位 长 。 

因此 通常 ， 一 个 网 络 由 多 个 子 网 组 成 ， 在 同一 个 子 网 中 的 主机 具有 相同 的 子 网 掩 码 和 子 网 地 址 。 
例如 ， 在 图 4-9 中 ， 有 5 台 主 机 连接 到 3 个 子 网 上 ， 分 别 为 140. 123. 1.0、140. 123. 2.0、140. 123.3.0 
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主机 Hl 和 H2 连接 到 同一 个 子 网 ， 因 此 具有 相同 的 子 网 地 址 ， 即 140. 123. 1.0。 子 网 之 间 利 用 路 由 融 
(RI1~R3) 连接 起 来 形成 一 个 互联 网 络 。 连 接 到 一 个 子 网 的 路 由 器 网 络 接口 也 具有 与 同一 个 子 网 内 主 
机 相同 的 子 网 拖 码 和 子 网 地 址 。 值得 注意 的 是 ， 每 台 路 由 器 通常 配备 了 多 个 网 络 接口 卡 。 其 中 有 些 将 
路 由 器 与 子 网 内 的 主机 连接 起 来 ; 然而 ， 另 一 些 用 于 连接 其 他 路 由 带 以 便 形 成 一 个 流量 交换 或 分 布 式 
的 骨干 网 络 ， 如 图 4-9 所 示 的 140. 123. 250. 0 子 网 。 
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图 4-9 ”IP 子 网 划分 的 例子 

CIDR 地 址 

有 类 IP 地 址 存在 一 些 问 题 。 首先 ， 由 于 网 络 地 址 的 固定 长 度 ， 为 中 等 规模 组 织 (如 有 多 达 2000 
台 主 机 的 一 个 组 织 ) 分 配 地址 时 就 很 因 难 。 一 个 C 类 网 络 地 址 对 于 这 样 的 组 织 太 小 ， 因 为 它 最 多 只 
能 支持 254 台 主 机 ; 而 B 类 网 络 地 址 太 大 ， 因 为 它 将 有 超过 63 000 个 以 上 的 地 址 未 能 使 用 。 一 种 可 能 
的 解决 办 法 就 是 为 组 织 分 配 多 个 C 类 网 络 地 址 ， 但 是 使 用 该 解决 方案 ， 路 由 和 转发 的 可 扩展 性 存在 问 
题 ， 使 用 该 类 IP 网 络 时 ， 每 个 C 类 网 络 地 址 在 骨干 路 由 器 的 路 由 表 中 占有 一 项 。 但 是 ， 对 于 具有 多 个 
C 类 网 络 地 址 的 组 织 ， 与 这 些 C 类 地 址 相关 的 所 有 路 由 表 表 项 都 应 该 指向 到 达 组 织 的 同一 个 路 由 路 径 
上 这 会 导致 骨干 路 由 闫 上 的 路 由 表 很 大 的 问题 ， 当 存在 很 多 C 类 网 络 地 址 时 ， 路 由 表 中 的 许多 表 项 
会 携带 相同 的 路 由 信息 

因此 ， 为 了 解决 该 问题 无 类 域 间 路 由 (CIDR) 便 应 运 而 生 。 利用 CIDR，IP 地 址 的 网 络 部 分 可 以 
具有 任意 长 度 。 一 个 中 等 规模 的 组 织 将 被 分 配 一 个 IP 地 址 块 ， 这 通常 是 连续 的 C 类 网 络 地 址 。 例 如 ， 
一 个 带 有 2000 台 主 机 的 组 织 可 以 分 配 一 块 从 194.24.0.0 ~ 194.24.7.255 的 地 址 ， 子 网 掩 码 为 
255. 255. 248. 0 或 194. 24. 0. 0/21。 即 前 21 位 用 来 指定 组 织 的 网 络 地 址 。 骨 干 路 由 器 仅 需 要 一 个 路 由 表 
项 记录 到 组 织 的 网 络 接口 ， 如 图 4-10 所 示 。 组 织 内 的 下子 网 划分 可 以 如 上 所 述 来 完成 。 











































































目的 地 址 下 一 跳 
194.24.0.0 19.1.1.250 ) 
194.24.1.0 | 19.1.1.250 
目的 地 址 前 级 下 一 跳 
194.24.2.0 | 19.1.1.250 
194.24.3.0 19.1.1.250 a a 
194.24.0.0 /121 19.1.1.250 
194.24.4.0 19.1.1.250 
194.24.5.0 ots | 
\ 
194.24.6.0 | 19.1.1.250 
194.24.7.0 | 19.1.1.250 
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图 4-10 使 用 与 不 使 用 CIDR 的 路 由 表 
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分 组 转发 

回顾 4. 1 节 所 述 ， 转 发 就 是 一 种 从 上 层 或 网 络 接口 接收 分 组 并 且 通 过 适当 的 网 络 接口 将 分 组 发 送 
出 去 的 过 程 。 主 机 和 路 由 器 都 需要 转发 分 组 。 对 于 主机 ,来自 上 层 的 分 组 需要 在 它 的 一 个 网 络 接口 上 
发 送出 去 。 对 于 路 由 器 ， 从 网 络 接口 上 接收 的 分 组 需要 转发 到 其 他 网 络 接口 上 。 耳 转发 过 程 的 核心 思 
想 是 ， 如 果 要 转发 分 组 的 目的 地 址 与 转发 节点 位 于 同一 子 网 ， 则 将 分 组 直接 发 送 到 目的 地 址 ; 否则 ， 





ee 一 跳 路 由 器 ， 然 后 直接 将 分 组 发 送 到 下 一 跳 路 册 
， 踏 由 表 表 项 由 (目的 地 址 / 子 网 掩 码 ， 下 一 跳 ) 对 组 成 ,但 它 也 可 能 包含 额外 的 信息 ， 具 体 根据 


人 : 行 的 路 由 协议 类 型 而 定 。 目 的 地 址 通常 表示 成 网 络 地 址 的 形式 ， 例 如 194. 24. 0. 0/21。 下 一 跳 既 
本 咀 睫 一 小 路 击 并 全 业 尖 是 四 届 拓 一 个 网 颖 六 吕 下 一 跳 路 由 带 必 须 在 同一 子 网 作为 网 络 接口 ， 以 使 
它 可 以 直接 通信 。 通 常 ， 有 一 个 表 项 记录 一 台 默 认 路 由 器 作为 目的 地 址 0.0.0.0/0。 如 果 分 组 的 目的 地 
址 不 匹配 路 由 表 中 的 任何 项 目 ， 那 么 就 将 它 转发 到 默认 路 由 岩 。 
我 们 可 以 从 两 个 方面 描述 分 组 转发 算法 。 首 先 ， 对 于 一 台 主 机 ,我们 考虑 从 上 层 (如 TCP) 传 来 
一 个 分 组 需要 发 送 到 目的 地 址 的 例子 。 特 别 是 ,我 们 考虑 最 常见 的 情况 ， 即 主机 只 有 一 个 网 络 接 口 卡 
和 一 台 默 认 路 由 器 的 情况 。 在 这 种 情况 下 ， 了 邢 转发 算法 操作 如 下 : 
IE the Packet is to be delivered to the Same host 
Deliver the packet to an upper-layer protocol 


Else IE (NetworkAddress of the destination == My subnet 
address) 

Transmit the packet directly to the destination 
Else 


Look up the routing table 
Deliver the packet to the default router 
End if 
现在 ， 让 我 们 考虑 具有 转发 能 力 的 路 由 带 或 主机 从 一 个 网 络 接口 接收 分 组 的 情况 。 在 这 种 情况 下 ， 
分 组 可 能 会 被 转发 到 适当 网 络 接口 的 目的 地 址 ， 或 者 如 果 目 的 地 址 是 主机 本 身 ， 就 将 分 组 传 给 本 地 的 
上 层 协议 。 转 发 算法 如 下 所 示 。 
If the packet is to be delivered to the upper layer 
Deliver the packet to an upper-layer protocol 
Else Look up the routing table 
If the Backet, i to be deliverned to dlrectly 
connected subnet 
Deliver the packet directly to the destination 
Else 
Deliver the packet te a next hop router 
End if 
End if 


在 前 面 两 种 算法 中 的 三 个 运算 值得 进一步 地 讨论 。 第 一 ， 转 发 主机 如 何 获取 目的 网 络 地 址 以 及 节 
点 本 身 是 否 与 目的 地 是 直接 连接 ? 使 用 下 列 运算 可 以 轻松 实现 这 个 布尔 判断 : 
If ((HostIP ^ DestinationIP) & SubnetMask)== 

这 里 是 按 位 异 或 运算 ，& 是 按 位 与 运算 。 

第 二 ， 在 子 网 内 将 分 组 转发 到 目的 地 需要 利用 目的 MAC 地 址 形成 一 个 第 2 层 的 帧 。 这 涉及 地 址 解 
析 操 作 ， 我 们 将 在 4.4 书 中 描述 。 最 后 ， 查 找 路 由 表 的 步骤 描述 如 下 。 

路 由 表 查 找 

正如 我 们 已 经 看 到 的 ， 路 由 表 查 找 是 全 转发 算法 关键 的 操作 。 由 于 有 了 CIDR 寻 址 ， 所 以 查找 路 
由 表 就 成 了 目前 已 知 的 最 长 前 组 匹配 问题 。 应 选择 与 分 组 目的 地 址 最 长 前 级 相 匹 配 的 路 由 
表 项 进行 转发 。 考 虑 到 有 两 个 组 织 的 情况 。 组 织 A 拥有 IP 地 址 194. 24. 0. 0 ~ 194. 24. 6.255。 因 为 发 送 
ed tt mn een a 网 殉 沈 所 以 在 路 由 表 中 它 仪 需要 一 个 路 由 表 项 将 分 组 
路 由 到 组 织 A。 作 为 路 由 汇总 的 结果 , 组织 A 的 路 由 表 项 的 网 络 地 址 为 194. 24. 0.0/21。 组 织 B 仅 拥有 
-个 C 类 网 络 地 址 ， 范 围 为 194. 24. 7.0- 194. 24. 7.255。 因 此 ， 组织 B 的 路 由 表 项 记录 网 络 地 址 为 
194. 24.7.0/24。 现 在 ， 假设 我 们 要 查找 目的 地 址 为 194. 24.7. 10 的 路 由 表 项 。 显 然 ， 目 的 地 址 匹配 两 
个 路 由 表 项 ， 即 ((194. 24. 7. 10 194. 24. 0.0) & 8255. 255. 248. 0 ) == 0 和 ((194. 24. 7. 10 194.24.7.0)& 
255. 255. 255.0) ==0。 我 们 知道 194. 24. 7. 10 属于 组 织 B， 因 此 应 选择 具有 更 长 网 络 地 址 的 路 由 表 项 ， 
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194. 24. 7. 0/24， 详 细 研 究 这 两 种 情况 ， 我 们 发 现 194. 24. 7. 10 能 够 匹配 194. 24. 7. 0724 的 前 24 位， 但 
只 匹配 194. 24. 0. 0721 的 前 21 位 。 现 在 应 该 清楚 为 什么 要 采用 最 长 前 缀 匹配 。 

最 近 , 已 经 提出 了 最 长 前 级 匹配 的 快速 算法 。 在 文献 中 ， 带 有 缓存 、 散 列 及 基于 硬件 实现 (并行 
算法 、 基 于 CAM 或 基于 DRAM) 的 转发 表 就 是 一 些 知 名 的 解决 方案 。 在 Linux 中 ， 查 找 算法 主要 是 其 
于 两 级 散 列 。 传 统 的 BSD 实现 使 用 trie 数据 结构 。trie 也 称 为 前 缀 树 ， 是 一 种 有 序 树 形 数据 结构 。 由 于 
PP 地 址 是 一 个 位 串 ， 用 于 最 长 前 组 匹配 的 trie 是 一 个 二 进 制 rie， 如 图 4-11 所 示 。 一 台 路 由 器 首先 构建 
一 个 字典 ， 它 由 所 有 的 路 由 前 级 组 成 。 人 然后 就 可 以 通 % 


过 从 字典 中 逐个 地 添加 前 级 到 trie 结构 中 来 构建 trie 

在 图 4-11 中 带 有 * 的 节点 ， 如 果 它 对 应 于 字典 中 的 一 

个 前 级 ， 就 在 trie 上 携带 着 下 一 跳 信 息 。 在 匹配 目的 

地 址 最 长 前 绥 的 搜索 中 , 在 trie 上 上 的 每 条 边 代 表 着 一 0 10 | 

个 二 进 制 位 串 ， 指 示 搜 索 直 到 它 不 能 继续 向 前 为 止 o100 
搜索 终止 的 节点 存储 着 下 一 跳 信息 作为 最 长 前 缀 匹配 入 2 NN 
的 结果 。 例 如 ,使 用 图 4-10 中 的 rie 树 搜 索 地 址 /NN 10100* Lb 
00001111 的 最 长 前 缀 匹配， 我 们 从 根 开始 ， 沿 左 树 移 

动 商 次， 最 终 在 节点 00 结束 ， 由 于 地 址 的 第 王位 和 
第 四 位 是 00， 这 与 节点 00° 的 任何 子 节点 不 相 匹 配 
因此 ， 最 长 前 级 匹配 就 是 前 级 00” 


O001* O001* 
图 4-11 具有 前 级 100* ,010* ,11*,，0001°7， 
001”，10100”，111* | 的 trie 的 例子 


开源 实现 4.2: IPv4 分 组 转发 

概述 

现在 让 我 们 查看 在 Linux2. 6 内 核 中 分 组 转发 是 如 何 完 成 的 。 利 用 最 长 前 级 匹配 算法 选择 的 路 由 表 
表 项 来 转发 分 组 。 所 选择 的 表 项 还 包含 分 组 转发 的 下 一 跳 信 息 。 分 组 转发 的 第 一 步 就 是 查找 路 由 表 找 
到 最 长 前 组 匹配 的 表 项 。 查 找 路 由 表 非 常 费 时 ， 尤 其 是 进行 最 长 前 缓 匹 配 时 更 是 如 此 。 因 此 ， 已 经 提 
出 的 好 的 数据 结构 可 以 加 快 路 由 表 的 搜索 ， 例 如 ， 使 用 trie， 或 基于 前 缓 长 度 的 二 分 法 检索 (binary 
search) ， 又 称 为 折 半 检索 。 另 一 方面 ， 因 为 同一 目的 地 可 能 被 频繁 地 访问 ， 所 以 在 路 由 缓存 中 存储 首 
次 访问 过 的 搜索 结果 ， 然 后 再 搜索 路 由 缓存 因为 接 下 来 的 访问 就 可 以 节省 很 多 路 由 表 查 找 的 时 间 。 因 
此 ， 在 Linux2.6 实现 中 ， 路 由 缓存 用 来 加 速 目的 地 址 的 查找 过 程 。 在 路 由 缓存 的 帮助 下 ， 路 由 表 的 全 
面 搜索 只 有 在 缓存 中 没有 找到 的 情况 下 才 会 发 生 ， 

框图 

Linux2. 6 的 IPv4 分 组 转发 过 程 的 调用 如 图 4-12 所 示 。 对 于 来 自 上 层 的 分 组 ， 如 果 不 知 道路 由 路 
径 ， 那 么 决定 输出 设备 (接口 ) 的 主 函 数 是 ip _ route output key() (在 src/net/ipv4/ 
route.c 中 )。 ip route output key () 使 用 散 列 函数 rt hash () 试图 在 路 由 缓存 中 找到 路 由 路 径 
(输出 设备 ) ， 这 最 终 会 调用 在 include/1inux/jhash. h 中 的 Bob Jenkins 的 散 列 函数 jhash() ( 参 
见 http: //burtleburtle. net/bob/hash/)。 如 果 路 由 路 径 不 在 路 由 缓存 中 ， 那 么 就 调用 ip _ 
route output slow()， 通 过 调用 fijb lookup () 在 路 由 表 中 查找 目的 地 。 


ip_queue xmit () 


__ip_route output key () | 




















ip_route_output slow () 





图 4-12 ”IP 转发 实现 :ip route output key 





算法 实现 
一 旦 从 网 络 接 口 收 到 一 个 分 组 ， 首 先 将 分 组 复制 到 内 核 的 sk buff 中 。 通 常 skb - > dst 为 


互联 网 放 议 属 157 





NUIL， 即 该 分 组 不 存在 虚拟 缓存 路 径 ， 并且 ip rcv finish() 调 用 ip _ route input () 以 确定 如 何 
转发 分 组 。 像 前 面 的 情况 一 样 ，ip_route input () 首 先 试图 在 路 由 缓存 中 查找 路 由 路 径 。 如 果 没 有 
找到 ， 就 调用 ip _ route input slow() ， 接 下 来 调用 fib lookup () 查 找 路 由 表 

数据 结构 

路 由 缓存 利用 rt hash table 数据 结构 来 维护 ， 这 是 一 个 zt_hash bucket 数组 。 每 个 zt _ 
hash table 表 项 指向 一 个 rtable 的 列表 ， 如 图 4-13 所 示 。rt hash () 对 从 分 组 中 提取 的 三 个 参数 
( 源 地 址 、 目 的 地 址 和 服务 类 型 ) 进行 散 列 处 理 ， 当 通过 rt hash() 获得 散 列 表 项 时 ， 对 rtable 的 
列表 进行 线性 搜索 以 便 找 到 入 口 点 
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图 4-13 路 由 缓存 
如 果 在 路 由 缓存 中 找 不 到 目的 地 址 ， 就 搜索 转发 信息 数据 库 (FIB)。FIB 数据 结构 相当 复杂 ， 如 
图 4-14 所 示 。Linux2.6 内 核 允 许 有 多 个 IP 路 由 表 ， 每 个 都 有 一 个 独立 的 fip _table 数据 结构 来 描述 。 
该 数据 结构 的 最 后 字段 tb_data， 指 向 一 个 fn_hash 数据 结构 ， 它 是 由 一 个 散 列表 fn zones 和 一 个 
散 列 链表 fn zone 1ist 组 成 。fn zones 是 33 个 fn zone 坑 各 站。 这 里 fn zones[z] 指 向 一 个 前 
级 长 度 为 z 的 散 列 表 , 0< =z< =32。 然 后 fn_zones 所 有 非 空 的 项 目 由 fn zone list 链接 起 来 ， 
头 部 是 具有 最 长 前 级 的 表 项 。fib lookup () 调 用 每 张 表 的 tb lookup () 函数 搜索 路 由 表 。 默 认 tb _ 
lookup () 函数 为 fn hash Le (在 src/net/ipv4/fib hash.c 中) ee fn zone 
list 查找 每 个 散 列 表 的 前 级 长 度 。 这 个 顺序 搜索 在 找到 一 个 匹配 时 就 会 结 结 来 。 通 过 搜索 fn_zone_ 
list 的 头 部 ， 就 能 保证 最 长 前 组 匹配 。 即 首次 匹配 就 是 最 长 的 匹配 。 
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图 4-14 FIB 数据 结构 
在 图 4-14 的 中 间 ， 每 个 fn_zones 表 项 指向 一 个 fn_zone 数据 结构 。fn zone 包含 一 个 指向 fn 
zone list 的 指针 和 一 个 散 列表 fz _ hash， 这 是 一 个 指向 fijb_node 的 指针 数组 。 一 个 fib node 对 
于 唯一 一 个 子 网 。 散 列 键 fn_key 是 子 网 的 前 级 ,例如 ， 如 果子 网 是 200. 1.1.0/24， 那么 fn key 
200. 1. 1。 散 列 函 数 fn_ hash () 定 义 为 一 个 src/net/ipv4/fib hash.c 中 的 内 联 函 数 。 在 每 个 





fib node 中 的 fn alias 表 项 指向 一 个 fib alias 结构 ， 该 结构 包含 子 网 的 某 些 基本 信息 ， 如 fa 
tos fa type、fa scope 和 一 个 指向 fib info 数据 结构 的 指针 。 最 后 ，fib_ info 包含 详细 的 路 由 
表 项 信息 ， 包 括 和 给 出 设备 和 下 一 跳 路 由 器 - 

对 于 任何 非 零 前 组 长 度 的 默认 散 列 表 大 小 (fz hash 表 项 数量 ) 是 16。 如 果 存 储 在 散 列 表 中 的 节 
点 数量 超过 表 大 小 的 两 倍 ， 那 么 在 第 一 次 出 现时 表 的 大 小 就 增加 到 256， 在 第 二 次 出 现时 则 增加 到 
1024， 在 这 之 后 无 论 何 时 条 件 满足 时 表 的 大 小 都 会 加 倍 

练习 

1. 利用 一 个 例子 来 跟踪 查找 ip route output key()， 然 后 写 出 如 何 搜寻 路 由 缓存 。 

2. 追踪 fib_ lookup () 探 讨 如 何 查找 FB 





性 能 问题 : 路 由 缓存 和 表 中 的 查找 时 间 

对 于 分 组 流 中 第 一 个 到 达 的 分 组 ， 路 由 机 制 很 可 能 会 导致 两 次 路 由 查找 操作 ， 一 次 发 生 在 路 由 缓 
存 中 ， 这 次 可 能 导致 一 次 查找 失败 (未 命中 )， 然 后 在 FIB 路 由 表 的 另 一 次 查找 中 产生 了 一 次 命中 。 对 
于 分 组 流 中 随后 到 来 的 分 组 ， 路 由 机 制 能 够 在 路 由 缓存 中 找到 第 一 个 分 组 到 达 的 查找 结果 ， 这 就 意味 
着 人 们 只 在 缓存 中 查找 。 令 人 们 感 兴趣 的 是 ， 我 们 能 够 多 快 地 在 这 两 种 数据 结构 中 执行 路 由 查找 。 我 
们 需要 测量 用 于 执行 1p route output key() 和 ip route output slow() 的 时 间 。 在 轻 载 Linux 
路 由 器 上 处 理 64 字 节 长 度 的 分 组 ， 运 行 ip route output key() 和 ip route output slow() 后 ， 
测量 分 别 得 到 25us 和 0.6hs， 这 说 明 两 种 相差 倍数 为 42。 尽管 两 者 都 是 散 列 表 ， 但 FIB 表 是 一 个 散 列 
表 数 组 ， 它 需要 从 具有 最 长 前 级 的 表 中 连续 地 搜索 。 

分 组 格式 

接 下 来 ,我 们 学 习 IP 分 组 格式 ,一 个 下 分 组 由 一 个 头 部 字段 ， 紧 随 其 后 的 是 数据 字段 ， 它 的 长 
度 必须 是 4 字 节 字 的 整数 倍 。IP 头 部 的 格式 如 图 4-15 所 示 。 每 个 字段 的 含义 描述 如 下 : 
































0 4 8 16 2 才 31 
版 本 | | 服务 类 型 分 组 长 度 ( 字 节 ) 
标识 符 标志 13 位 分 段 偏 移 
生存 时 间 | 上 层 协 议 头 部 校 验 和 
| 源 IP 地 址 
目的 IP 地 址 
选项 

















图 4-15 ”1Pv4 分 组 格式 

版 本 号 : 版 本 号 指定 IP 协议 的 版 本 。IP 协议 当前 版 本 是 4， 下 一 代 耳 版 本 为 6， 

头 部 长 度 : IPv4 头 部 具有 可 变 的 长 度 。 该 字段 以 4 字 节 为 单位 指定 头 部 的 长 度 。 没有 选项 字段 ， 

典型 的 头 部 长 度 是 5 个 字 ， 也 就 是 说 ，20 字 节 。 

日 服务 类 型 (TOS) : TOS 指定 趾 分 组 需要 的 服务 。 最 理想 情况 下 ， 路 由 器 会 根据 分 组 的 TOS 处 理 
分 组 。 然而， 不 是 所 有 的 路 由 天 都 具有 这 种 处 理 能 力 。 根 据 RFC 791 和 1349 ( 见 图 4-16) ，TOS 中 
的 前 3 位 用 来 定义 分 组 的 优先 级 ， 随 后 的 4 位 定义 处 理 该 分 组 时 的 性 能 度量 。 性 能 度量 是 延迟 、 
人 三 吐 量 、 可 靠 性 和 成 本 。 最 近 ，RFC 2474 将 前 6 位 定义 为 区 分 服务 (DS) 字段 ， 由 它 携带 分 组 
的 DS 代码 点 
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优先 级 服务 类 型 R 











在 RFC 791 中 定义 的 优先 级 。 ”在 REC 1349 中 定义 的 TOS 
1000: 最 小 延迟 


111: 网 络 控制 0100: 最 大 吞吐 率 
110: 网 络 互联 控制 0010: 最 大 可 靠 性 
101: CRITICIECP 0001: 最 小 代价 
We re 0000: 正常 服务 
011: 内 速 : 最 大 安 
010: 中 间 的 Wen nsdn 
001: 优先 级 Er 

000; 例 程 oA 


图 4-16 ”TOS 定义 
e 分 组 长 度 : 这 个 字段 指定 总 的 分 组 的 长 度 ， 包 括 头 部 和 数据 ， 以 字 节 为 单位 。 因 为 它 有 16 
位 ， 所 以 IP 分 组 的 最 大 长 度 为 65 536 字 季 ， 这 称 为 最 大 传输 单元 (MTU ) 。 
e 标识 符 : 标识 符 唯 一 地 标识 一 个 IP 分 组 。 它 义 称 为 序列 号 ,在 IP 分 段 中 特别 有 用 。 我 们 稍 后 
将 详细 讨论 让 分 段 。 
。 标志 : 标志 字段 中 的 最 低 两 位 用 于 分 段 控制 。 第 一 个 控制 位 称 为 不 分 段位 。 如 果 设 置 了 该 位 ， 
IP 分 组 就 不 能 分 段 ， 最 后 一 位 称 为 更 多 分 段位 。 如 果 该 位 设置 为 1， 就 表示 当前 分 组 位 于 一 个 
较 大 分 组 的 中 间 ，。 | 
分 段 偏 移 :如果 当前 分 组 是 一 个 分 段 ， 邢 么 该 字段 指示 该 分 段 在 原 分 组 中 的 位 置 。 偏 移 的 测量 
是 以 8 字 节 为 单位 ， 因 为 该 字段 在 贡献 出 3 位 给 标志 字段 后 就 只 剩 下 13 位 了 ， 
生存 时 间 (TTL) : TTL 指定 允许 分 组 通过 路 由 器 的 最 大 个 数 。 它 在 新 版 本 IP 协议 中 称 为 跳 限 
制 。 每 个 路 由 器 在 将 分 组 转发 给 下 一 个 路 由 器 时 会 将 TTL 减 1。 如 果 TTL 为 0， 那 么 就 于 弃 分 组 
并 产生 一 个 错误 信息 ， 即 一 个 ICMP 消息 ， 并 将 该 消息 发 送 到 源 。 
上 层 协 议 : 该 字段 指示 将 分 组 传 给 的 上 层 协 议 。 例如， 数值 为 1!、6、17 分 别 表 示 上 层 协议 是 
ICMP、TCP、UDP,，RFC 1700 定义 用 于 该 字段 的 可 能 编号 。 
头 部 校 验 和 : 校 验 和 用 于 检测 接收 到 的 下 分 组 中 的 错误 。 这 与 CRC 不 同 ， 这 种 16 位 校 验 和 的 
计算 和 填充 是 将 整个 IP 头 部 作为 一 个 序列 的 16 位 字 来 处 理 的 ， 使 用 1 的 补 运 算计 算 这 些 字 的 
总 和 ， 然 后 再 对 结果 进行 补 运算 。 我 们 在 第 3 章 中 已 经 描述 了 一 个 类 似 的 处 理 程序 。 虽 然 这 种 
16 位 校 验 和 的 保护 不 如 CRC =16 那样 强 , 但 是 它 可 以 更 快 地 计算 并 且 很 容易 地 在 软件 中 完成 。 
在 目的 地 ， 如 果 呈报 头 的 所 有 16 位 字 总 和 不 产生 一 个 0， 那 么 就 检测 到 一 个 错误 。 通 常会 斑 弃 








一 个 出 错 的 分 组 。 
。 源 和 目的 IP 地址 : 这 两 个 字段 指定 源 和 目的 I 地 址 。 如 上 所 述 ， 目 的 地 址 是 将 分 组 转发 到 最 
终 目的 地 的 关键 。 


选项 : 并 非 在 每 个 分 组 中 都 要 求 有 选项 字段 。 它 具有 可 变 的 长 度 ， 具 体 取决 于 选项 类 型 。 通 常 ， 
选项 字段 用 于 测试 或 调试 。 因 此 ， 它 涉及 路 由 器 的 协作 。 例 如 ， 源 路 由 就 是 一 种 常用 的 用 来 指 
定 路 由 路 径 的 选项 ， 即 从 源 到 最 终 的 目的 地 的 一 系列 路 由 器 。 选 项 字段 很 少 使 用 ， 因 此 没有 将 
它 包 含 到 1P 报头 的 固定 部 分 中 。 

e 数 据 : 数据 字段 包含 来 自 上 层 的 协议 数据 单元 (PDU) ， 它 将 发 送 到 目的 地 。 

分 组 分 段 与 重组 

不 仅 正 协议 具有 自己 的 MTU 限制 ， 每 个 链 路 层 协 议 也 经 常 更 严格 地 限制 每 次 可 以 转发 的 最 大 帧 。 
例如 ， 以 太 网 将 MTU 限制 为 1518 字 节 ， 其 中 包括 18 字 节 的 协议 开销 和 1500 字 节 的 有 效 载 荷 (上 层 
数据 ) 。 换 名 话说 ， 当 在 以 太 网 接口 上 传递 分 组 时 ，IP 分 组 的 最 大 长 度 为 1500 字 节 。 然 而 ， 从 上 层 
来 的 分 组 可 能 大 于 以 太 网 协议 的 硬 限制 1500 字 节 ， 因 为 我 们 知道 P 协议 的 MTU 为 65 536 字 节 。 通 过 
分 段 可 以 将 一 个 大 的 IP 分 组 分 成 两 个 或 两 个 以 上 较 小 的 人 分组， 而且 必 须 足够 小 以 便 能 够 通过 链 踏 
层 ， 如 图 4-17 所 示 。 这 些 更 小 的 IP 分 组 称 为 IP 分 段 。 由 于 MTU 要 根据 底层 所 采用 的 链 路 层 协 议 而 变 
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化 ， 所 以 分 段 既 可 以 在 源 节 点 进行 也 可 以 在 中 间 路 由 器 上 上 进行。 重组 是 利用 TIP 分 段 重 建 原 IP 分 组 的 
过 程 ， 在 吓 协 议 中 ,重组 只 在 最 终 的 目的 地 完成 以 避免 延长 路 由 器 上 上 的 缓冲 








帮忙 ， 不 能 通过 





IP 分 段 




















图 4-17 JIP 分 段 


开源 实现 4.3: 汇编 语言 实现 的 IPv4 校 验 和 

概述 

IP 头 部 校 验 和 的 计算 通过 将 整个 IP 头 部 作为 一 个 16 位 字 序 列 进行 处 理 ， 利 用 1 的 补 运 算 将 这 些 
字 加 起 来 ， 然 后 再 对 结果 进行 补 运算 

算法 实现 

IP 头 部 校 验 和 使 用 ip fast csum (在 src/include/asm i386/checksum.h 中 ) 函数 计算 
既然 需要 为 每 个 人 P 分 组 计算 校 验 和 ， 那 么 就 需要 有 一 种 快速 算法 。Linux 内 核 通过 使 用 依赖 于 机 器 的 
汇编 语言 编写 该 函数 来 优化 校 验 和 的 计算 和 于 80x86 机 器 ，ip fast csum() 通 数 是 用 32 位 而 不 是 


16 位 字 进 行 相 加 运算 的 。 用 C 语言 编写 的 代码 如 下 所 示 
for (sum=0;length>0;length--) 
SuUm 二 = *buf+i++; 
In ip fast _ csumt)，thie code is translated to: 
“1: adcl 16(%1), %0 ;\n” /* the sum is put in %0; summation 
is in 32=bit */ 
“Jea 4(%1), $1 y\n” advance the buf pointer by 4 (in 
bytes) */ 
“deal $2 NAN /* decrease the length by 2 (in 16 bits) */ 
*Jjne LB Nn” /* ontinae the Joap til bength==0 / 


然后 将 结果 复制 到 另 一 个 寄存 器 中 这 两 个 寄存 器 通过 移 位 将 16 位 放 到 最 低位 ， 然 后 再 加 起 来 
取 结 果 的 补 运 算得 出 校 验 和 。 

练习 

编写 一 个 程序 计算 IP 校 验 和 并 验证 程序 的 正确 性 ， 通 过 与 Wireshark 软件 捕获 的 真实 IP 分 组 进行 比较 


如 何 重 新 组 装 IP 分 组 会 影响 分 段 步骤 的 设计 ， 因 此 让 我 们 首先 考虑 IP 的 重组 处 理 过 程 。 为 了 重 
组 一 个 PP 分组， 我们 壳 要 收集 同一 分 组 的 所 有 分 段 。 因 此 ， 我 们 直 要 有 一 个 标识 符 将 这 些 分 段 与 其 他 


分 组 的 分 段 区 分 开 来 ， 并 且 我 们 需要 知 ee 了 所 有 的 分 段 。 为 了 做 到 这 一 点 ，IP 分 段 处 理 为 
所 有 来 自 同 一 分 组 的 分 段 在 尖 部 的 标识 符 字 段 (或 序列 号 字段 ) 设置 了 相同 0 它 在 标志 字段 使 用 
更 多 分 段 (more fragments) 标志 ， 标 明 攻 有 且 忆 人 为 最 语 分 段 。 假 设 给 出 一 个 IP 分 组 的 所 有 分 段 ， 
thd et 中 的 位 置 。 这 是 由 下 报头 中 的 ee 来 确定 的 。 因 此 ， 
每 个 分 段 实 际 上 上 就 是 一 个 携带 头 部 分 段 信 息 和 原 分 组 中 部 分 数据 的 普通 下 分 组 ， 与 普通 下 分 组 一 样 ， 


一 个 IP 分 段 还 可 以 二 而 帮 下 浊 = 分 段 。 目的 地 使 用 头 部 中 的 标识 符 、 标 志和 分 段 偏 移 字段 来 
重组 原 分 组 

图 4-18 显示 了 一 个 将 3200 学 节 的 分 组 分 成 三 个 分 段 以 通过 以 太 网 接口 的 例子 。( 以 太 网 的 MTU 为 
1518 字 节 ， 带 有 18 字 节 的 头 部 和 尾部 )。 注 意 分 段 偏 移 是 以 8 字 节 为 单位 的 ， 因 为 它 仅 使 用 13 位 而 不 
是 16 位 来 记录 分 段 在 原来 的 下 分 组 中 的 偏 移 位 置 。 因 此 ， 每 个 分 段 的 分 组 长 度 ， 除 了 最 后 一 个 分 段 
外 ， 必 须 是 8 字 节 的 整数 倍 。 如 图 4-18 所 示 ， 除 了 20 字 节 的 下 报 头 ， 可 以 放 和 人 分 段 的 最 大 字 节 数 是 


1500 -20， 即 1480。 每 个 分 段 的 头 部 与 原 分 组 相同 ， 除 了 下 面 两 个 字段 外 : 标志 和 分 段 偏 移 标志 的 
更 多 分 段位 必须 设置 为 1， 除 了 最 后 一 个 分 段 外 。 目 的 地 可 以 通过 标识 符 字段 来 区 分 是 否 属 于 同一 分 


组 ， 通 过 更 多 分 段位 来 识别 是 否 为 最 后 一 个 分 段 ， 使 用 分 段 偏 移 将 分 段 重组 到 原来 的 适当 位 置 
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头 部 头 部 
id=x.more=0.0ffset=0 id=x.more=1.0ffset=0 
1480 字 节 的 数据 
头 部 
id=x.more=] .offset=185 
3200 字 节 的 数据 1480 字 节 的 数据 


i1d=x,more=0.0ffset=370 





240 字 节 的 数据 




















a ) 源 分 组 by 
图 4-18 JP 分 段 的 一 个 例子 


开源 实现 4.4: IPv4 分 段 


概述 
当 发 送 一 个 大 小 大 于 链 路 层 MTU 的 分 组 时 ， 就 必须 进行 分 段 。 因 此 ， 在 传输 一 个 IP 分 组 之 前 就 
必须 进行 大 小 检查 。 同 一 个 IP 分 组 的 所 有 分 段 都 具有 相同 的 标识 符 。 此 外 ， 需 要 为 所 有 分 段 设置 更 多 
分 段 标志 ， 最 后 一 个 分 段 除外 。 还 需要 正确 地 设置 偏 移 字段 ， 字 段 偏 移 是 以 8 字 节 为 单位 的 ， 并 且 除 
了 最 后 一 个 分 段 外 的 所 有 分 段 都 应 该 为 8 字 节 的 整数 倍 。 为 了 能 够 将 多 个 分 段 重 组 下 分 组 ， 重 组 函数 
需要 根据 来 自 这 些 分 段 头 部 中 的 标识 符 、 更 多 分 段 标 志和 偏 移 字段 信息 来 处 理 。 此外， 重组 分 段 的 实 
现 应 精心 设计 ， 以 避免 缓冲 区 溢出 攻击 
数据 结构 
IP 头 部 的 数据 结构 是 iphdr， 定 义 在 src/include/linux/ip.h 中。 
struct iphdr { 
#if defined( LITTLE ENDIAN BITFIELD) 
_u8 ihl:4, 
version:4; 
Helif defined ( BIG ENDIAN BITFIELD) 
_ uu8 version:4, 
ihl sd 
#else 
#error “please fix <asm/byteorder.hs’" 
#endif 
_u8 tos; 
belé tot eny 
__ belé6 id; 
.bale frag OF; 
TB ELy 
__ uu8 protocol; 
_ sumi6 check; 
_ be32 saddr; 
_ be32 daddr; 
/*The options start here. */ 
二 
算法 实现 
接 下 来 ， 我 们 将 重点 研究 分 段 和 重组 函数 。 当 将 卫 分 组 发 送 到 网 络 接口 时 ， 就 可 以 分 段 。 上 层 协 
议 调用 ip_ queue xmit () 将 上 层 数 据 通 过 IP 层 发 送 。 在 ip queue xmit () 中 确定 路 由 之 后 ， 将 调用 
ip queue xmit2 () 检 查分 组 长 度 是 否 大 于 下 一 条 链 路 的 MTU， 如果 大 于 ,就 调用 ip fragment () 


= 。 务 4 详 





执行 分 段 ， 在 ijp fragment 中 的 一 个 while 循环 负责 将 原 分 组 进行 分 段 。 除 了 最 后 一 个 分 段 外 ， 将 分 
段 大 小 设置 为 小 于 MTU 的 8 字 节 的 最 大 倍数 。 每 一 个 分 段 在 正确 地 设置 了 头 部 和 数据 后 按 顺 序 发 送 到 
网 络 接 口 。( 这 些 函 数位 于 src/net/ipv4/ip output. cu) 

图 4-19 显示 了 重组 步骤 的 调用 图 (大 多 数 函 数位 于 src/net/ipv4/ip fragment.c)。 当 从 数 
据 链 路 层 接收 到 一 个 IP 分 组 时 ， 就 调用 ip_rcv() 函数 来 处 理 该 分 组 。 它 调用 ip _ route _ input () 确 
定 是 转发 分 组 还 是 把 它 传送 到 上 层 。 在 后 一 种 情况 下 ,调用 ip _ local deliver () ， 如 果 头 部 中 的 更 
多 分 段位 或 分 段 偏 移 不 为 零 ， 则 调用 ip defrag ()。IP 分 段 在 一 个 称 为 ipq hash 的 散 列 表 中 维护 ， 
这 是 一 个 ipq 结构 的 数组 。 调用 散 列 函数 ipqhashfn() 将 IP 分 段 散 列 到 ipq _ hash 散 列 表 中 ， 基 于 
四 个 字段 : 标识 符 、 源 下 地 址 、 目 的 下 地 址 和 上 层 协 议 的 标识 符 (id)。ip defrag () 函数 首先 调用 
ip find()， 依 次 调用 ipqhashfn() 查找 存储 同一 分 组 的 分 段 的 ipq 结构 队列 。 如 果 没 有 找到 这 样 
的 队列 ， 就 调用 ipq frag create() 创 建 一 个 队列 ， 它 然后 再 调用 ijpq frag intern() 将 队列 放 入 
散 列表 中 。 ip defrag () 函数 然后 调用 ip frag queue () 将 分 段 放 入 到 队列 中 ， 如果 接收 到 了 所 有 
分 段 ， 就 调用 15 frag reasm() 重 组 分 组 


| net bh() 一 ip rev() ”| ip_route input () | ip_local deliver () 


in ip_localL_ deliver(): 
























ip defrag () 












| ip Jocal_deliver finish () 








In ip_defrag(): 













ip_find() ip frag queue() 





一 所 有 分 段 都 到 达 了 呵 盖 


返回 队列 


ip_frag reasm() 





In ip_find(): 


ipqhashfn() 











ip_frag_create () 





图 4-19 Linux 中 的 IP 分 段 和 重组 


练习 
使 用 Wireshark 捕获 一 些 IP 分 段 并 观察 头 部 中 的 标识 符 、 更 多 分 段 标志 和 偏 移 字段 。 


4.2.2 网 络 地 址 翻译 


出 于 隐私 和 安全 的 原因 ， 有 些 IP 地址 保留 仅 用 于 私人 专用 、 企 业内 部 的 通信 。 这 些 地 址 ， 称 为 私 
有 了 四 地 址 ,定义 在 RFC 1918 中 。 三 块 下 地 址 空间 保留 用 于 私有 互联 网 ， 分 别 是 : 

10. 0.0.0 - 10.255.255.255 (10.0.0. 078 ) 

172. 16. 0.0 - 172.31.255.255 (172. 16. 0. 0/12) 

192. 168. 0.0 - 192. 168. 255. 255 ( 192. 168. 0. 0716 ) 

第 一 块 就 是 一 个 A 类 网 络 号 ， 第 二 块 是 一 组 16 个 连续 的 B 类 网 络 号 ， 第 三 块 是 一 组 256 个 连续 的 
C 类 网 络 号 . 

除了 隐私 和 安全 的 考虑 外 ， 还 有 其 他 一 些 使 用 私有 地 址 的 原因 。 例 如， 当 外 部 网 络 拓扑 更 改 时 
(如 更 改 ISP) 避免 更 改 IP 地址 。 最近 ， 一 个 常见 的 原因 就 是 由 于 IP 地址 耗 尽 问题 。 尽 管 我 们 可 以 通 
过 采用 下 一 代 互 联网 协议 自然 地 解决 问题 ,但 了 地址 和 网 络 地 址 翻译 (NAT) 可 作为 短期 的 应 急 解决 


方案 
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基本 NAT 和 NAPT 

NAT 是 一 种 用 于 将 一 组 IP 地 址 映射 为 另 一 组 IP 地 址 的 方法 。 更 通常 地 ，NAT 以 一 种 透明 的 方式 
为 终端 用 户 提供 公共 互联 网 与 私有 互联 网 之 间 的 连接 。 存 在 有 两 种 NAT 变种 : 基本 NAT 和 网 络 地 址 端 
己 翻 译 (NAPT) 。 为 了 证 使 用 私有 IP 地 址 的 主机 能 够 访问 公共 互联 网 ， 基 本 NAT 为 私有 网 络 中 的 每 
台 主 机 分 配 一 个 全 球 唯 一 的 公共 全 地址 ， 无 论 是 动态 的 还 是 静态 的 。 来 自私 有 网 络 分 组 的 源 地 址 被 其 
源 主机 分 配 的 全 球 IP 地址 所 代 符 。 这 也 适用 于 进入 分 组 的 目的 地 地 址 是 发 向 属于 私有 互联 网 的 内 部 
主机 。， 

基本 NAT 要 求 访 问 公 共 互 联网 的 每 一 台 内 部 主机 都 要 有 一 个 公共 卫 地址 。 然 而 ， 对 于 小 公司 
(小 办 公 室 、 家 庭 办 公 室 [SOHO ] ) ， 许 多 内 部 计算 机 需要 共享 少量 的 吓 地址 。 因 此 ， 另 一 种 替换 的 
方法 ，NAPT， 将 翻译 扩展 到 包括 IP 地 址 和 传输 层 的 标识 符 。 通 过 NAPT， 两 台 共 享 同一 个 全 局 IP 地 
址 的 内 部 网 络 主机 通过 传输 层 的 标识 符 (如 TCP/UDP 端口 号 或 ICMP 消息 标识 符 ) 进行 区 分 
图 4-20 显 示 了 最 基本 的 NAT 和 NAPT 翻译 .为 IP 地 址 和 传输 层 标 识 符 的 翻译 ,创建 和 维护 一 张 NAT 
翻译 表 。 对 于 基本 NAT， 翻 详 表 中 的 每 一 个 表 项 都 包含 一 对 地 址 : (私有 地 址 ， 全 球 或 公共 地 
址 )。 例 如， 在 图 4-20 的 NAT 表 中 ， 私 有 地 址 10. 2. 2. 2 映射 为 140. 123. 101. 30。 困 此， 所 有 源 焉 
地 址 为 10. 2. 2.2 的 分 组 将 被 截获 并 且 它 们 的 源 全 地 址 由 NAT 服务 器 转换 为 140. 123. 101. 30。 另 一 
方面 ，NAPT 表 中 的 每 一 表 项 包含 趾 地 址 和 传输 层 标识 符 : (私有 了 地址， 私有 传输 层 标 识 符 ， 全 球 由 
地 址 ， 全 球 传输 层 标识 符 )。 例 如 ， 在 图 4-20 的 NAPT 表 中 ， 所 有 带 有 10.2.2.3 作为 源 中 地 址 和 端 
口号 为 1175 的 分 组 将 被 截获 ， 它 们 的 源 下 地 址 和 端口 号 将 由 NAT 的 服务 器 相应 地 转换 为 
140. 123. 101. 31 和 6175 。 
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10.2:2,3:1175==>140.,123.101.31:6175 
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10,2:2.2=——>140.123.101.30 | 





















































Sre:10.2.2.2;1064 Src'140.123.101.30:1064 
| 

Dst:140.113.250.5.80 Dst:140 113.250.5:80 

带 有 NAT 的 
路 由 器 

Sic:102.2.3 呈 7 Sre:140.123.101.31:6175 
| 

Dst:140.113,54,.100:21 Dst:140.113.54.100:21 

图 4-20 基本 NAT 和 NAPT 的 例子 


静态 或 动态 映射 
NAT 翻 闪 表 既 可 静态 也 可 以 动态 地 配置 和 更 新 。 一 个 有 足够 的 全 球 PP 地址 并 且 因 为 隐私 和 安全 原 
因而 使 用 NAT 的 组 织 ， 可 以 手动 设置 全 局 PP 地 址 和 私有 了 P 地 址 之 间 一 对 一 的 映射 关系 。 在 这 种 情况 


下 ， 每 一 个 内 部 主机 拥有 一 个 唯一 的 对 用 户 透 明 的 全 球 卫 地 址 ， 不 仅 能 让 内 部 网 络 主机 访问 公共 互联 
网 ， 而 且 也 能 以 相反 的 方向 访问 。 然 而 ， 在 大 多 数 情况 下 ，NAT 表 是 按 需 更 新 的 。NAT 维护 一 个 全 球 
IP 地 址 池 。 妆 一 个 外 出 分 组 到 达 时 ，NAT 查 表 得 到 分 组 的 源 地 址 。 如 果 找 到 一 个 表 项 ，NAT 将 私有 地 
址 翻译 成 相应 的 全 球 全 地址 。( 在 NAPT 中 ， 也 翻译 传输 层 标 识 符 。) 否则 ， 就 从 下 地 址 池 中 选择 一 
个 未 分 配 的 表 项 并 将 它 分 配给 拥有 源 地 址 的 内 部 主机 《同样 ， 在 NAPT 的 情况 下 ， 选择 一 个 新 的 传输 
层 标识 符 )。 每 个 表 项 关联 一 个 定时 器 ， 以 便 释 放 不 使 用 的 表 项 。 

尽管 在 大 多 数 情况 下 ，NAT 是 用 来 单 向 访问 公共 互联 网 , 但 当 有 进入 分 组 到 达 时 创造 一 个 新 的 
NAT 映射 还 是 可 能 的 。 例 如 ， 当 NAT 接收 到 一 个 内 部 主机 的 域名 查找 ,但 是 在 NAT 表 中 还 没有 对 应 
的 表 项 时 ， 就 可 以 创建 一 个 新 的 表 项 和 新 分 配 的 下 地 址 来 用 于 回答 域名 的 查找 。 在 更 为 复杂 的 情况 
下 ， 称 为 两 次 NAT， 也 是 可 能 的 ， 这 里 通信 的 两 台 终 端 主机 都 是 专用 网 络 的 内 部 主机 (参见 RFC 
2603 ) 。 
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行动 原则 : 不 同类 型 的 NAT 

具体 取决 于 外 部 主机 是 如 何 通 过 映射 公共 地 址 和 端口 来 发 送 分 组 的 ，NAT 的 实现 可 以 分 为 四 种 类 
型 ; 完全 圆锥 型 (full cone， 即 一 对 一 ) 、 受 限 圆锥 型 (restricted cone)、 端 口 受 限 圆锥 型 〈porl 
restricted cone) 、 对 称 型 (symmetric)。 其 中 ， 完 全 圆锥 型 是 市 场 上 最 常见 的 实现 ， 而 对 称 型 提供 最 好 
的 安全 性 ， 完 全 因为 在 某 种 意义 上 ， 它 是 最 难以 遍历 的 . 这 些 实现 的 操作 细节 将 在 图 4-21 中 描述 ， 在 
此 仅 做 简要 的 描述 
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b) 受 限 圆锥 型 NAT 
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5) 端口 受 限 回 锥 型 NA1 




















服务 器 2 


d) 对 称 型 NAT 
图 4:21 
完全 圆锥 型 : 一 旦 一 个 内 部 地 址 (jiAddr: iport) 已 经 映射 到 一 个 外 部 地 址 (eAddr: epot)j 时 ， 
所 有 来 自 (iAddr: iport) 的 分 组 将 通过 (eAddr: eport) 发 送 ， 任 何 外 部 主机 可 以 通过 (eAddr: 
eport) 向 (iAddr: iport) 发 送 分 组 。 也 就 是 说 ，NAT 服务 器 将 不 检验 进入 分 组 的 源 IP 地 址 和 端口 号 
受 限 圆锥 型 : 和 上 面 一 样 ， 除 了 仅 有 已 经 从 (iAddr: iport) 接收 分 组 的 外 部 主机 能 够 通过 (eAd- 
dr: eport) 向 (iAddr: ipor) 发 送 分 组 外 。 也 就 是 说 ， 服 务 器 将 记 住 外 出 分 组 的 目的 IP 地址 ， 并 将 进 
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入 分 组 的 源 号 地 址 与 记 住 的 目的 IP 地 址 进行 对 比 

端口 受 限 圆锥 型 ， 和 上 面 一 样 ， 除 了 外 部 主机 必须 使 用 相同 的 已 从 (iAddr: iport) 接收 分 组 的 端 
口 通过 (eAddr: eport) 向 (iAddr: iport) 发 送 分 组 外 ， 也 就 是 说 ，NAT 服务 器 将 检查 进入 分 组 的 源 
IP 地 址 和 端口 号 

对 称 型 : 对 进入 分 组 使 用 与 端口 受 限 圆锥 型 相同 的 操作 。 然 而 ， 对 于 每 一 个 外 部 源 IP 地 址 和 端口 
(iAddr: iport) ~ (eAddr: eport) 的 映射 应 该 是 唯一 的 .也 就 是 说 ， 如 果 外 出 分 组 有 不 同 的 目的 趾 位 
址 或 端口 号 ， 那 么 从 相同 的 〈iAddr: iport) 来 的 外 出 分 组 将 被 映射 到 不 同 的 (eAddr: eport ) 

当 两 台 主机 通信 时 ， 如 果 发 起 者 ， 经 常 是 一 台 NAT 之 后 的 客户 机 ， 而 响应 者 是 一 台 不 在 NAT 之 后 
的 服务 器 ， 那 么 将 调用 上 述 地 址 解析 过 程 之 一 。 另 一 个 可 选择 的 方法 需要 基本 NAT 或 在 NAT 服务 器 上 
的 端口 重 定向 配置 ， 如 果 两 者 都 在 NAT 服务 器 之 后 怎么 办 ? 在 RFC 3489 中 提出 UDP 简单 穿越 NAT 
(Simple Traversal of UDP through NATs，STUN) 以 便 在 两 台 都 在 NAT 服务 器 之 后 的 主机 提供 UDP 通信 。 
基本 思想 是 通过 发 送 请 求 到 STUN 服务 器 来 穿越 NAT 服务 器 。 后 来 ，UDP 和 TCP 简单 穿越 NAT 
(STUNT) 扩展 了 STUN 以 便 包 括 TCP 的 功能 


端口 重 定向 和 透明 代理 

除了 提供 互联 网 接 入 外 ，NAT 还 可 以 用 于 更 安全 或 更 有 效 的 应 用 中 ， 如 端口 重 定 向 和 透明 代理 。 
例如 ， 网 络 管理 员 可 能 想 将 所 有 的 WWW 请 求 重 定 向 到 一 个 特定 的 IP 地址 和 专用 端口 号 。 管 理 员 就 
可 以 在 域名 服务 上 费 (DNS) 数据 库 中 创造 一 条 新 的 记录 ， 如 一 条 将 www. cs. ccu. edu. tw 映射 到 
140. 123. 101. 38 的 记录 。 那么 , 在 NAT 表 中 创建 了 一 条 表 项 将 映射 重 定向 到 想 要 的 私有 地 址 和 端口 
号 一 一 例如 ， 将 140. 123. 101. 38 :80 映射 为 10.2.2.2: 8080， 这 里 “: 80” 和 “: 8080” 代 表 端 口 
号 (这 些 将 在 第 5 章 中 正式 介绍 ) 因此 , 在 公共 互联 网 络 上 的 主机 仅 知 道 www 服务 器 是 
www. cs ccu edu. tw， 其 TP 地址 为 140. 123. 101.38， 它 的 私有 地 址 没有 暴露 ， 实 际 服务 器 就 可 以 更 加 
安全 地 对 付 入 侵 攻 目 。 此 外 ， 也 更 容易 将 WWW 服务 器 更 换 成 具有 不 同 私 有 了 正 地 址 的 另 一 台 机 天 。 
上述 过 程 称 为 端口 重 定向 ， 使 用 NAT 的 另 一 个 例子 称 为 透明 代理 ， 是 将 所 有 外 出 WWW 请 求 重 定向 
到 一 个 透明 代理 ， 这 样 代 理 缓存 就 可 以 有 助 于 加 速 请 求 处 理 ， 或 者 代理 服务 器 可 以 检查 请 求 或 啊 应 : 
例如 ,在 NAT 表 中 可 以 创造 一 个 表 项 将 WWW 服务 (140. 123. 101.38: 80) 映射 到 一 个 内 部 WWW 
代理 (10.1.1.1: 3128)。 向 外 的 WWW 请 求 首先 被 NAT 翻译 并 重 定向 到 内 部 WWW 代理 服务 器 
在 有 缓冲 代理 的 情况 下 ， 内 部 代理 就 可 能 直接 从 其 本 地 缓存 中 准备 响应 ,或 者 将 请 求 转发 到 真正 的 
服务 右上， 


行动 原则 : NAT 中 的 复杂 ALG 

因为 由 NAT 和 NAPT 所 做 的 翻译 更 改 了 IP 头 部 和 传输 层 头 部 中 的 地 址 ， 所 以 这 些 头 部 中 的 校 验 和 
在 翻译 过 后 需要 重新 计算 ， 此外，IP 地 址 和 传输 标识 符 的 翻译 可 能 会 影响 某 些 应 用 的 功能 ， 特别 是 ， 
任何 在 其 协议 消息 中 编码 源 或 目的 地址 /端口 的 应 用 将 受到 影响 。 因 此 ，NAT 通常 和 应 用 级 网 关 
(ALG) 一 起 使 用 。 让 我 们 考虑 需要 为 ICMP 和 FTP 对 NAT 进行 修改 。 

ICMP 是 一 个 用 于 TCPZUDPZIP 错误 报告 的 协议 ， 我 们 将 在 4.5 节 中 详细 说 明 ICMP。 一 个 ICMP 的 
错误 消息 ， 如 目的 地 不 可 达 错 误 ， 将 错误 分 组 识 入 在 ICMP 分 组 的 有 效 载荷 中 。 所 以 ， 不 仅 TCMP 分 组 
的 地 址 ， 而 且 原 来 错误 分 组 的 源 或 目的 地 址 都 需要 NAT 进行 翻译 。 然 而 ， 这 些 地 址 的 任何 更 改 都 需 
重新 计算 ICMP 头 部 的 校 验 和 以 及 嵌入 的 IP 头 部 的 校 验 和 。 对 于 NAPT 翻译 ， 谈 入 的 JIP 头 部 的 TCP/ 
UDP 端口 也 需要 进行 修改 。 在 ICMP 回 送 请 求 /应 答 消息 中 ,使 用 查询 标识 符 来 标识 回 送 (echo) 消 
息 ， 这 种 查询 标识 符 相 当 于 传输 层 标 识 符 ， 因 此 也 需要 翻译 。 因 此 ， 如 果 查 询 标识 符 被 修改 ， 那 么 
ICMP 头 部 校 验 和 也 需要 重新 计算 

文件 传输 协议 (FTP) 是 一 种 很 受 欢 迎 的 互联 网 应 用 ， 将 在 第 6 章 中 介绍 。 在 NAT 翻译 的 情况 下 ， 
FTP 也 需要 一 个 ALG 才能 保持 正常 工作 ， 问题 来 自 FTP PORT 命令 和 PASV 响应 ， 因 为 这 两 个 命令 包 
含 一 个 用 ASCI 编码 的 上 地 址 /TCP 端口 对 。 因 此 ，FTP ALG 需要 确保 正确 地 翻译 IP 地址、PORT 和 
PASYV 命令 中 的 端口 号 。 因 为 翻译 后 ， 用 ASCI 编码 的 IP 地 址 的 长 度 和 端口 号 长 度 可 能 改变 ， 比 如 ， 
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从 10.1.1.1: 3128 中 的 13 个 8 位 组 到 140. 123. 101.38: 21 中 的 17 个 8 位 组 ， 这 会 使 问题 变 得 更 加 复 
杂 。 因 此 ， 分 组 长 度 也 可 能 会 改变 ， 这 也 许 反 过 来 会 影响 后 续 TCP 分 组 的 序列 号 。 为 了 使 这 些 改 变 对 
FTP 应 用 透明 ，FTP ALG 需要 一 张 特 殊 的 表 来 纠正 TCP 序列 和 确认 号 。 纠正 需要 对 连接 上 的 所 有 后 续 
分 组 进行 


开源 实现 4.5: NAT 

概述 

在 Linux 内 核 版 本 2.2 之 前 ，NAT 实现 称 为 P 伪装。 从 Linux 内 核 版 本 2.4 开始 ，NAT 实现 就 集 
成 了 iptables， 一 种 分 组 过 滤 功 能 的 实现 。NAT 的 实现 可 以 分 为 两 种 类 型 : 源 NAT， 用 于 外 出 的 分 
组 ; 目的 NAT， 用 于 处 理 从 互联 网 或 上 层 来 的 进入 分 组 源 NAT 更 改 源 IP 地 址 和 传输 层 标 识 符 ， 而 
目的 地 NAT 改 变 目的 地 地 址 和 传输 层 标 识 符 。 在 分 组 过 滤 后 和 分 组 传送 到 输出 接口 前 ， 完 成 源 NAT。 
源 NAT 在 iptables 中 的 钩子 名 字 ， 在 Linux 中 称 为 NF_INET POST ROUTING。 在 分 组 过 滤 应 用 到 来 
自 网 络 接口 卡 或 上 层 协议 的 分 组 之 前 ， 完 成 目的 地 NAT。 对 于 前 者 ， 钧 子 称 为 NF _INET PRE REOUT- 
ING， 而 对 于 后 者 ， 它 称 为 NF_ INET LOCAL OUT。 

数据 结构 

建立 源 NAT 和 目的 NAT 钧 子 的 卫 表 的 数据 结构 为 ( 见 /net/ipv4/netfilter/nf nat_rule.c): 


static struct xt target ipt snat reg read mostly = { 
:name = “SNAT”, 
target = ipt snat target, 
targetsize = sizeof (struct nf nat multi range 
compat), 
table = “nat”; 
.hooks = 1 << NF_INET POST ROUTING, 
.Checkentry = ipt snat checkentry, 
.family = AF TNET, 





T 


站 
static struct xt target ipt dnat reg read mostly = 


{ 


-name = “DNAT”, 

.target = ipt dnat. target, 

.targetsize = sizeof (struct nf nat multi range 
compat), 

: table = “mat 

-hooks = (1 << NF_INET PRE ROUTING) | 


(1 << NF_INET LOCAL OUT), 
.Checkentry = ipt dnat checkentry, 
.family = AF_INET, 


六 
NAT 钩子 函数 的 数据 结构 ， 如 nf nat in、 nf nat out、 nf nat local fn、nf nat fn, 我 


们 将 稍 后 跟踪 (参见 /net/ ipv4/netfilter/nf nat standalone. c) : 
static struct nf hook ops nf nat ops[] _read mostly 


本 


/* Before packet filtering, change destination */ 











.hook = nf nat in, 

-Owner = THIS MODULE, 

-BE = PF_INET, 

.hooknum = NF_INET PRE ROUTING, 
.priority = NF_IP PRI NAT _DST 


}h 
/* After packet filtering, change source */ 


{ 


.hook = nf nat out, 

.Owner = THIS MODULE, 

.PE = PF_INET, 

.hooknum = NF_INET POST ROUTING, 


.priority = NF_IP PRI NAT SRC, 
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/* Before packet filtering, change destination */ 


{ 


.hook = Tf rnat local fn;, 
-Owner = THIS MODULE, 

.pf = PF_ INET, 

.hooknum = NF INET LOCAL OUT, 
.priority = NF_IP PRI NAT DST, 


}， 


/* After packet filtering, change source */ 


{ 


.hook = ME nat Fn; 

:Owner = THIS MODULE, 

.pE = PF_INET, 

.hooknum = NF_INET LOCAL IN, 
.priority = NF_IP PRI NAT SRC, 


}s 
上 


最 后 ， 跟 踪 连 接 的 数据 结构 为 : 


struct nE conn { 


struct nf conntrack tuple hash tuplehash 
MAX] ; 


struet nf conn *master: 


[IP_CT DIR 


/* Storage reserved for other modules: */ 


union nf conntrack proto proto; 
/* Extensions */ 
struet mf ect ext “exty 

b: 

struct nf_conn nat 


{ 


struct hlist node bysource; 
struct nf nat seq seqlIP CT DIR MAX]; 
Struct Tf cornn wokty 


union nf conntrack nat help help; 


#if defined(CONFIG IP NF TARGET MASQUERADE) || \ 
defined (CONFIG IP NF _ TARGET MASQUERADE MODULE,) 


int masqg index; 
#endif 


ja 
图 4-22 表示 了 这 些 数据 结构 之 间 的 关系 。 






































sk_xxxbuff nf conn nf_conntrack_tuple 
nf_conntrack _ 
tuple_hash struct 
nf_conntrack_man 
tuplehash[ORIG] hnnode STC; 
nfet 
tuplehash[REPLY] tuple Fo Struct | 
iu; 
， u int8 tprotonum; 
| uin8 tdir:}ydst; 








图 4-22 NAT 实现 的 数据 结构 


算法 实现 


NAT 模块 通过 调用 nf_nat standalone init() 进 行 初始 化 ， 它 调用 nf nat rule init() 注 
册 iptagbles 和 nf register hooks () 以 建立 NAT 钩子 函数 。 初 始 化 后 ，iptables 和 钧 子 函数 将 


会 如 图 4-23 所 示 进 行 设 置 。 
如 图 4-23 所 示 ， 为 NF_INET PRE ROUTING 、NFE INI 








ET LOCAL OUT 和 NE INET ROUTING 的 钩子 

















108 劳 4 踪 
PRE ROUTING POST_ROUTING , 
来 自 接口 (目的 NAT) 路 由 决策 ( 源 NAT) | 一 = 到 接口 
Hook=nf_nat_in Hook=nf_nat_out | 














LOCAL OUT 


(目的 NAT) 


Hook=nf nat local_ fn 











上 层 (TCP/UDP) 








图 4-23 NAT 分 组 流 

执行 NAT 的 函数 分 别 是 nf nat in()、nf nat local fn() 和 nf nat out()。 所 有 这 三 个 函数 最 
终 都 会 调用 nf nat fn() 实 现 NAT 操作 

图 4-24 描绘 了 nf nat fn() 的 调用 图 。nf nat fn() 函 数 从 sk buff 获得 连接 跟踪 信息 (nfct 
和 nfctinfo)。 如 果 mnfctinfo 为 IP CT_NEW 并 且 NAT 没有 初始 化 ,那么 将 调用 alloc null 
binding() 以 防 LOCAL_ IN 没有 链 ， 即 还 没有 设置 NAT 规则 ; 和 否则， 调用 nf nat rule find() 
这 两 个 函数 都 调用 nf _nat setup info() 进 行 分 组 的 网 络 地 址 翻译 。 在 nf nat setup info() 中 ， 
调用 get unique tuple() 以 便 获 得 一 种 元 组 形式 的 结果 。 如 果 它 是 一 个 源 NAT (SANT) ， 它 就 调用 
find appropriate src() 搜 索 ipv4. nat bysource 散 列 表 。 如果 失 败 ， 则 调用 find best ips 
proto() 为 这 次 翻译 获得 一 个 新 的 元 组 ， 


py nf _ nat rule find() 一 一 一 | ipt_do table() 





























nt nat fn() alloc null binding() 








nf nat setup info() 











nf nat packet () | 1 


get_unique tuple() 


' 


| find_best_ips_proto() find_appropriate_sre () | 


























图 4-24 NAT 的 Linux 实现 的 调用 图 
如 上 所 述 ， 在 完成 了 耳 级 翻译 后 ， 调 用 传输 层 NAT 函数 。ALG 函数 又 称 为 辅助 函数 ， 例 如 ，FTP 
ALGC 的 辅助 函数 为 nf _ nat ftp ()。 图 4-25 中 显示 了 FTP ALG 在 linux 内 核 2.6 中 的 调用 图 。 通 过 
mangle 数组 ， 如 果 分 组 中 含有 PORT 或 PASV 命令 就 调用 mangle rfc959 packet (); 如 果 分 组 中 
含有 EPRT 命令 (在 IPv6 中 为 PORT) 就 调用 mangle eprt packst(); 如 果 分 组 中 含有 EPSV 命令 
就 调用 mangle epsv packet ()。 上 述 所 有 都 调用 nf nat mangle tcp packet () 来 处 理 TCP 所 需 
要 的 更 改 ， 如 序列 号 和 校 验 和 的 重 计算 。 








nf_nat_ftp_hook<-nf_nat ftp | 


| 


| nf nat ftp () 












Inf nat mangle tcp packet () 








mangle rfc959 packet () 














mangle eprt packet () | | mangle contents () | 

















le_eps ket 
A oad . adjust tcp_sequence () 














图 4-25 FTP ALG 的 调用 图 
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让 我 们 以 ICMP 作为 NAPT 的 一 个 例子 。 函 数 icmp manip pkt () 用 于 更 改 ICMP 消息 的 校 验 和 及 
查询 标识 符 、icmp unigque tuple() 在 指定 范围 内 线性 地 搜索 ， 就 会 在 用 户 指定 的 范围 内 找到 一 
唯一 的 查询 标识 符 ”ICMP 和 P 的 校 验 和 由 函数 de () 来 重新 计算 ， 为 了 实 
际 的 校 验 和 调整 ， 它 们 依次 调用 scsum paryial () .为 了 更 快 地 执行 ， 函 数 csum partial() 是 用 
汇编 语言 来 实现 的 

练习 

跟踪 adjust tcp _ sequence () 并 解释 当 分 组 由 于 地 址 翻译 而 改变 时 ， 如 何 调整 TCP 分 组 的 序 
列 号 ， 


性 能 问题 : NAT 实现 及 其 他 的 CPU 时 间 

尽管 在 Linux 内 核 中 NAT 实现 也 进行 散 列 运算 ， 但 它 的 执行 时 间 比 用 了 分 组 转发 的 查找 函数 的 
时 间 更 长 。， 导 致 这 种 情况 出 现 有 两 个 原因 。 在 图 4-23 中 ， 一 个 分 组 首先 经 过 目的 NAT 然 后 经 过 源 
NAT， 每 次 调用 都 要 查询 散 列 表 。 另外 一 个 原因 是 ， 除 了 吓 地 址 和 端口 号 翻译 外 ， 还 需 调用 ALG 辅 
助 函 数 。 图 4-26 中 画 出 了 携带 有 效 载荷 为 64 字 节 的 ICMP 分 组 在 处 理 速 度 为 2.33CHz 的 CPU 分 别 用 
于 转发 (通过 缓存 和 FIB， 分 别 标记 成 “路 由 缓存 ”和 “路 由 FIB”)、NAT、 防 火 墙 和 VPN (加 密 、 
认证 分 别 标 记 为 “3DES” 和 “HMAC-MD5”) 处 理 的 延迟 。 后 两 者 将 在 第 8 章 中 介绍 .尽管 NAT 消 
耗 与 防火 墙 同 样 数 量 的 CPU 时 间 ， 但 大 于 转发 所 消耗 的 时 间 ， 但 NAT 延 迟 比 验证 和 加 密 消耗 的 时 间 
要 少 得 多 显然 对 调用 硬件 加 速 的 急需 程度 为 : 加 密 、 认 证 、NAT、 防 火 墙 ， 然 后 是 转发 。 当 吞吐 
量 小 于 100Mbps 时 ， 只 有 加 密 和 认证 必须 需要 硬件 解决 方案 ，, 在 Linux 内 核 下 ,软件 实现 对 于 3DES 
和 HAMC-MD5 分 别 取 得 的 吞吐 量 为 73Mbps 和 85Mbps， 但 是 在 数 千 兆 吞吐 量 时 ,它们 都 需要 借助 于 
硬件 加 速 器 来 完成 





延迟 (ns) 
1 




















ee ee fe 


9 3DES HMAC-MD5 NAT 防火 增 > 路 由 FIB 


图 4-26 重要 网 络 函 数 的 延迟 





4.3 互联 网 协议 版 本 6 

当前 IP 协议 的 版 本 过 到 了 一 些 问题 ， 其 中 最 受 关注 的 就 是 32 位 IP 地 址 空间 的 不 是 。 考 虑 到 当前 
互联 网 发 展 趋 热 和 了 P 地址 无 效率 的 利用 情况 ， 人 们 曾 预 测 到 2011 年 IANA 未 分 配 的 IPv4 地 址 将 耗 尽 ， 
早 在 1991 年 ，IETE 呼吁 为 新 的 IP 版 本 提 建 议 ， 又 称 为 下 一 代 IP (IPng)。 后 来 收 到 多 个 建议 ， 其 中 选 
中 的 建议 称 为 简单 互联 网 协议 加 强 版 (SIPP)。 最 初 的 地 址 长 度 建 议 为 64 位 ， 后 来 被 IETF IPng 理事 会 
加 信和 为 128 位 。 由 于 版 本 号 5 已 经 被 试验 性 协议 使 用 了 ， 于 是 给 新 的 人 P 协议 分 配 的 官方 版 本 号 为 6， 
即 大 家 所 熟知 的 JPv6。 对 于 IPv4 地 址 耗 尽 问题 的 长 久 解 决 方案 就 是 迁移 到 IPv6 地 址 ， 

IPv6 考虑 了 某 些 新 的 特性 。 首先. 将 地 址 空间 扩展 到 了 128 位 。 基 次， 为 了 加 速 在 路 由 器 上 的 分 
组 转发 ， 采 用 国定 长 度 的 头 部 格式 。 通过 在 头 部 包含 一 个 流标 签 还 考虑 了 对 服务 质量 的 支持 。 一 种 新 
的 地 址 类 型 称 为 选 播 ， 建 议 用 于 向 一 组 主机 内 任何 主机 发 送 分 组 (通常 用 于 向 同一 个 子 网 内 的 任意 一 
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台 可 达 路 由 器 发 送 )，IPv6 也 支持 自动 配置 ， 与 DHCP 的 功能 相 类 似 ， 最 后 ，IPv6 使 用 扩展 头 部 来 支持 
分 段 、 安 全 、 增 强 型 路 由 以 及 其 他 的 功能 特性 


历史 演变 : NAT 与 IPv6 

NAT 与 TPv6 都 试图 解决 IPv4 地 址 空间 短缺 问题 显然， 直到 2010 年 ， 由 于 NAT 与 当前 互联 网 兼 
容 而 被 选 为 解决 方案 。 互 联网 的 历史 告诉 我 们 ， 演 变 比 革命 更 容易 接受 。 从 IPv4 到 IPv6 的 转换 如 同一 
场 革 命 ， 需 要 对 所 有 终端 设备 和 互联 网 设备 〈( 如 路 由 器 ) 上 的 软件 进行 更 新 。 另 一 方面 ，NAT 的 使 用 
就 如 同 演变 ， 它 只 需要 在 一 些 缺 乏 IPv4 公共 地 址 的 子 网 部 署 NAT 服务 器 。 但 是 ， 随 着 未 分 配 IPv4 地 
址 的 逐步 接近 耗 尺 ， 似 乎 只 有 采用 IPv6 才能 解决 问题 。 如 今 ， 这 仍然 是 一 个 饱 受 争论 的 话题 


4. 3.1 1IPv6 头 部 格式 _ 

IPv6 的 头 部 格式 如 图 4-27 所 示 。 正 如 它 最 初 的 名 字 所 指示 的 ，IPv6 的 设计 原则 简单 。 多 个 在 大 多 
数 IPv4 中 没有 使 用 的 头 部 字段 从 IPv6 中 删除 了 ， 以 便 加 速 路 由 器 上 的 分 组 处 理 和 转发 。 这 样 做 的 结果 
就 是 ，IPv6 头 部 具有 固定 长 度 ， 为 40 字 节 ， 没 有 选项 字段 。 额 外 的 功能 使 用 扩展 头 部 来 实现 ， 这 些 将 
在 以 后 讨论 。 


0 4 12 16 ?4 31 


版 本 | 通信 业务 类 别 流标 号 
有 效 载荷 长 度 下 一 个 头 部 跳 数 限制 | 


源 地 址 (16 个 8 位 ) 














目的 地 址 (16 个 8 位 ) 











图 4-27 ”IPv6 头 部 格式 

e 版 本 号 : 与 IPv4 一 样 ， 头 部 从 一 个 版 本 字段 开始 ，IPv6 的 版 本 号 为 6. 

e 通 信 业 务 类 别 : 通信 业务 类 别 字 段 指示 分 组 需要 的 服务 ， 与 IPv4 中 的 TOS 字段 相似 。 这 个 字段 
用 于 区 分 不 同 分 组 的 服务 类 别 。 例如， 前 6 位 用 于 区 分 服务 (DiffServ) 框架 中 的 DC 代码 点 
[RFC 2472] 。 

e 流 标签 : 流标 签字 段 用 于 识别 同一 个 流 的 分 组 以 便 提 供 不 同 的 服务 质量 。 例 如 ， 同 一 语音 流 的 
分 组 ， 当 然 要 防止 传输 延迟 和 拌 动 ， 可 当做 一 个 流 。 但 是 并 没有 说 明 准 确定 义 一 个 流 的 方式 。 
因此 ,一 个 流 可 以 是 一 个 TCP 连接 或 者 一 个 源 -目的 地 对 , 但 在 实际 操作 中 ， 同 一 流 的 分 组 通 
第 具有 相同 的 源 地 址 、 目 的 地 址 、 源 端口 号 、 目 的 端口 号 和 相同 的 传输 层 协 议 。 明显， 根据 这 
样 的 定义 ， 同 一 个 TCP 连接 中 的 分 组 将 形成 一 个 流 

。 有 效 载荷 长 度 : 16 位 有 效 载荷 长 度 字 段 表 示 除 了 40 位 头 部 长 度 外 整个 分 组 的 字 节 长 度 。 因 此 ， 
最 大 有 效 载 荷 长 度 为 65 535 字 节 。 

。 下 一 个 头 部 ; 下 一 个 头 部 字段 表示 上 层 协议 或 者 下 一 个 扩展 头 部 。 它 用 来 取代 IPv4 中 的 协议 字 
段 和 选项 字段 。 如 果 这 里 没有 特别 的 选项 ， 则 下 一 个 头 部 标识 运行 在 IPv6 之 上 的 上 层 协 议 ， 例 
如 了 TCP 或 UDP。 如 果 需 要 特殊 的 选项 ( 如 分 段 、 安 全 和 增强 路 由 )， 则 IPv6 头 部 后 跟 一 个 或 多 
个 扩展 头 部 ， 其 类 型 由 下 一 个 头 部 字段 标识 ， 

e 跳 限制 : 跳 数 限制 字段 在 IPv4 中 称 为 生存 时 间 (TTL) ， 这 里 只 是 更 改 了 名字 ， 与 IPv4 中 的 TTL 
相同 的 方式 使 用 

® 源 和 目的 地 址 : 最 后 ， 头 部 由 源 和 目的 地 址 结束 ， 每 个 地 址 占 128 位 。 在 IPv6 中 有 三 种 类 型 地 
址 : 单 播 、 选 播 和 组 播 ， 接 下 来 将 详细 介绍 。 细心 的 读者 也 许 发 现 了 , 在 IPv4 中 存在 的 某 些 头 
部 在 IPv6 中 删除 了 。 首 先 ， 不 再 有 校 验 和 。 从 头 部 中 移 除 校 验 和 有 两 个 非常 好 的 理由 : 首先 ， 
高 层 协议 ( 如 TCP) 中 已 经 提供 了 可 靠 性 保障 ， 没 有 必要 在 中 间 路 由 器 上 重新 计算 校 验 和 。 其 
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次 ,不 再 有 分 段 标志 和 偏 移 位 ， 因 为 不 允许 在 中 间 路 由 带 上 进行 分 段 。 这 样 再 次 减轻 了 路 由 带 
上 的 处 理 负担 。 分 段 和 其 他 选项 〈 如 源 路 由 ) 现在 可 以 由 扩展 头 部 ， 一 种 比 IPv4 更 高 效 灵活 的 
机 制 来 处 理 。 由 于 在 IPv6 的 头 部 中 没有 选项 字段 ， 所 以 IPv6 的 头 部 长 度 是 固定 的 ， 并 且 固 定 长 
到 的 头 部 也 能 提高 路 由 带 的 处 理 速度 . 


4. 3. 2 1IPv6 扩展 头 部 

IPv6 利用 扩展 头 部 来 支持 分 段 和 其 他 选项 。 在 IPv6 头 部 中 的 下 一 个 头 部 字段 指示 紧 跟 IPv6 的 扩展 
头 部 。 每 个 扩展 头 部 还 有 一 个 下 一 个 头 部 字段 ， 用 来 指示 后 面 的 扩展 头 部 或 高 层 协议 头 部 。 图 4-28 给 出 
了 使 用 3 个 扩展 头 部 的 例子 。 图 4-28a 是 最 常见 的 例子 ，IPv6 头 部 后 跟着 TCP 头 部 。 在 该 例子 中 ，IPv6 
头 部 的 下 一 个 头 部 字段 的 值 为 6， 它 表示 TCP 的 协议 标识 符 。 如 果 需 要 增强 路 由 ， 则 路 由 头 部 可 以 如 
图 4-28b 所 示 那 样 地 使 用 。 在 这 种 情况 下 ，IPv6 头 部 的 下 一 个 头 部 字段 的 值 为 43， 这 里 43 指示 紧 跟 IPv6 
头 部 的 路 由 头 部 ， 路 由 扩展 头 部 中 的 下 一 个 头 部 字段 包含 值 6。 同 样 ， 如 果 需 要 路 由 选项 和 分 段 ， 则 扩 
展 头 部 的 序列 号 如 图 4-28e 所 示 。 路 由 头 部 的 下 一 个 头 部 字段 的 值 为 4， 表示 下 一 个 头 部 为 分 段 头 部 。 





IPv6 头 部 
下 一 个 头 部 =TCP 


a) 无 扩展 头 部 


TCP 头 部 














IPv6 头 部 路 由 头 部 
下 一 个 头 部 = 路 由 下 一 个 头 部 =TCP To 





b) 后 跟 一 个 路 由 头 部 的 IPv6 头 部 

















Ipv6 头 部 路 由 头 部 PR 
F 一 个 头 部 = 路 由 下 一 个 头 部 -分 段 | Re J 








<) 后 跟 一 个 路 由 头 部 和 一 个 分 段 头 部 的 IPv6 头 部 
图 4-28 ”IPv6 扩展 头 部 
在 RFC 2460 中 推荐 了 多 条 处 理 扩 展 头 部 的 规则 。 首 先 ， 扩 展 头 表 4-1 IPv6 扩展 头 部 的 顺序 
部 的 顺序 要 按 表 4-1 进行 。 如 RFC 2460 中 所 述 ， 尽 管 IPv6 节点 必须 














接受 并 处 理 以 任意 顺序 的 扩展 头 部 ,但 是 我 们 强烈 建议 IPv6 分 组 的 基本 IPv6 头 部 
源 按照 推荐 的 顺序 进行 。 特 别 是 ， 当 逐 跳 选项 头 部 被 沿 着 路 径 上 的 所 基本 IPv6 头 部 
有 中 间 路 由 器 处 理 时 ， 它 必须 严格 地 紧 接 着 IPV6 头 部 之 后 出 现 。 其 逐 跳 选项 头 部 (0) 
次 ， 扩展 头 部 必须 严格 地 按照 它们 在 分 组 中 出 现 的 顺序 处 理 ， 因 为 每 目的 地 选项 头 部 (60) 
个 扩展 头 部 的 内 容 或 语意 决定 着 是 否 要 处 理 下 一 个 头 部 。 再 次 ， 中 间 路 由 头 部 (43 





路 由 天 〈 即 非 目 的 节点 ) 除了 增加 逐 跳 转发 的 额外 头 部 外 ， 不 能 处 
理 扩 展 头 部 。 最 后 ， 每 种 扩展 头 部 最 多 仅 出 现 一 次 ， 除 了 目的 地 址 选 
项 头 部 最 多 可 以 出 现 两 次 外 〈 一 次 在 路 由 头 部 之 前 ， 一 次 在 上 层 头 


分 段 头 部 (44) 
认证 头 部 (51) 




















部 值 之 前 ) 。 封装 安全 有 效 载荷 头 部 (50) 
目的 地 选项 头 部 (60) 
4. 3.3 1IPv6 中 的 分 段 移动 头 部 (135) 
IPv6 中 的 分 段 与 IPv4 中 有 些 不 同 。 首 先 ， 为 了 简化 在 路 由 器 上 无 下 一 个 头 部 (59) 
的 分 组 处 理 ， 在 路 由 器 上 不 允许 分 段 。 也 就 是 说 ， 分 段 仅 在 源 端 进 i 


行 。 其 次 ,分 段 信 息 ， 例 如 “更 多 分 段 ” 位 和 分 段 偏 黎 ， 是 由 一 个 称 

为 分 段 头 部 的 扩展 头 部 而 不 是 IPv6 头 部 来 携带 。 图 4-29 显示 了 分 段 头 部 格式 ， 下 一 个 头 部 字段 指示 下 
一 个 关 部 的 类 型 。 分 段 偏 移 和 更 多 分 段位 (图 中 的 M 位 ) 与 IPv4 中 的 使 用 方式 相同 。 图 4-30 显示 了 
将 一 个 大 的 分 组 分 成 三 个 分 段 的 过 程 。 在 前 两 个 分 段 中 ， 更 多 分 段位 设置 为 1。 分 段 偏 移 仍然 用 8 个 8 
位 来 衡量 。 
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图 4-29 分 段 头 部 






































IPv6 头 部 | 分 段 1 数据 分 段 2 数据 分 段 3 数据 
a) 原来 的 分 组 
IPv6 头 部 分 段 头 部 | 分 段 1 数据 
IPv6 头 部 | 分 段 头 部 分 段 2 数据 
IPv6 头 部 分 段 头 部 分 段 3 数据 | 
b) 分 段 


图 4-30 ”IPv6 分 段 的 例子 
然而 ， 还 有 一 个 问题 没有 解决 : 既然 在 中 间 路 由 融 上 不 允许 分 段 ， 那 么 源 端 如 何 知 道 整 条 链 路 上 
的 MTU 并 相应 地 进行 分 段 呢 ? 这 里 有 丙种 方法 解决 这 个 问题 。 首先， 在 IPv6 的 网 络 中 ， 每 条 链 路 需 
要 有 1280 字 节 或 更 大 的 MTU。 因 此， 一 个 源 总 是 可 以 假设 每 条 路 由 路 径 的 MTU 为 1280 字 节 并 将 
分 段 成 1280 字 节 或 更 短 。 其 次 ， 一 个 源 可 以 运行 路 径 MTU 发 现 协 议 (RFC 1981) 来 发 现 路 径 上 
MTU。 强烈 建议 IPv6 主机 运行 路 径 MTU 发 现 协议 以 充分 利用 大 于 1280 字 节 的 路 径 优势 


4.3.4 1IPv6 地 址 的 表示 法 

由 于 IPv6 地 址 较 长 ， 曾 经 用 于 IPv4 地 址 的 点 分 十 进 制 表示 方法 并 不 适用 于 表示 IPv6 地 址 。 因 此 ， 
采用 冒号 十 六 进 制 方法 来 表示 IPv6 的 地 址 ， 格 式 为 X:X:X:X:X:X:X:X， 其 中 X 为 16 位 IPv6 地 址 的 十 六 
进 制 表示 。 下 面 给 出 一 个 冒号 十 六 进 制 表示 法 的 例子 

3FFD:3600:0000:0000:0302:B3FF:FE3C:CODB 

导 号 十 六 进 制 表 示 法 仍然 非常 长 ， 而 且 在 绝 大 多 数 情况 下 含有 很 多 连续 的 零 。 建 议 将 零 进 行 床 缩 ， 
用 一 对 冒号 代替 连续 的 老 。 例 如 ， 前 面 的 例子 就 可 以 简写 成 : 

3FFD:3600::0302:B3FF:FE3C:CODB 


4. 3.5 1IPv6 地 址 空间 分 配 

与 IPv4 不 同 的 是 ，IPv6 地 址 没有 类 - 在 IPv6 中 ,一 个 前 级 用 来 表示 IPv6 地 址 的 不 同 用 法 。 对 
IPv6 中 前 组 用 法 的 最 新 定义 在 RFC 4291:IPv6 地 址 体系 结构 中 。 表 4-2 显示 了 最 新 IPv6 前 级 分 配 以 及 分 
配给 给 定 前 绥 的 IPv6 地 址 空间 ， 这 是 一 种 前 级 占用 空间 与 整个 IPv6 地 址 空间 之 比 。 正 如 我 们 从 表 4-2 中 
所 看 到 的 ， 大 部 分 地 址 当前 还 没有 分 配 ， 只 有 15% 的 IPv6 地 址 空间 wa 8 

IPv6 的 地 址 有 三 种 : 单 播 、 组 播 和 选 播 。 有 些 值得 注意 的 地 址 包括 ， 与 IPv4 兼容 的 地 址 (前缀 为 
00000000 ) 、 全 球 单 播 地 址 和 链 路 本 地 单 播 地 址 。 组 播 地 址 是 以 11111111 前 级 开始 的 最 后 ， 选 播 地 
址 具有 一 个 子 网 前 组 后 跟 全 是 0， 这 与 IPv4 子 网 地 址 的 格式 相似 。 一 组 节点 (路 由 器 ) 可 以 分 享 一 个 
选 播 地 址 。 发 给 选 播 地 址 的 分 组 应 该 发 送 到 组 中 的 一 个 成 员 ， 一 般 是 最 近 的 一 个 . 

以 前 缀 00000000 开始 的 地 址 保留 用 于 与 IPv4 兼容 有 两 种 方法 将 IPv4 地 址 编码 为 IPv6 地 址 。 一 
舍 运 行 IPv6 软件 的 计算 机 可 以 分 配 一 个 以 96 个 0 开始 后 跟 IPv4 地 址 的 ITPv6 地 址 ， 称 为 IPv4 兼容 的 
IPv6 地 址 。 例 如 ，140. 123. 101. 160 的 1Pv4 兼容 IPv6 地 址 为 0000:0000:0000:0000:0000:0000:8C7B:65 A0， 
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表 4-2 IPv6 地 址 的 前 缀 分 配 





















































前 绷 地 址 类 型 部 分 前 组 地 址 类 型 部 分 
0000::78 预 贸 1/256 A000::73 术 分 村 1/8 
0100::/8 未 分 配 1/256 C000::/3 未 分 配 178 
0200::/7 未 分 配 1/128 E000::/4 术 分 配 1/16 
0400::/6 未 分 配 1/64 F000::/5 未 分 配 1/32 
0800::/5 术 分 配 1/32 F800::/6 未 分 配 1/64 
1000::/4 未 分 配 1/16 FC00::/7 唯一 本 地 单 播 1/128 
2000::/3 全 球 单 播 地 址 1/8 FEO0::/9 未 分 配 17512 
4000::/3 未 分 配 L228 FE80::Z10 链 路 林地 单 播 地 址 1/1024 
6000::/3 未 分 配 1/8 FECO::/10 未 分 配 1/1024 
”8000::/3 未 分 配 8 FFO0::/8 组 播 地 址 1/256 


也 可 以 写成 :87CB:65A0。 一 个 不 能 理解 IPv6 的 常规 IPv4 的 计算 机 将 会 分 配 一 个 以 80 个 0 开始 后 跟 16 
个 1 再 后 跟 32 位 IPv4 地 址 的 IPv6 地 址 ， 称 为 IPv4 映射 的 TPv6 地 址 。 例 如 ，140. 123. 101. 160 的 IPv6 
不 兼容 地 址 或 者 IPv4 映射 的 IPv6 地 址 为 :FFFF:8C7B:65A0， 

两 类 特殊 的 地 址 也 是 以 前 缀 00000000 开始 。 全 0 的 地 址 称 为 单 播 非 指定 地 址 ， 这 个 地 址 用 于 主机 
启动 引导 过 程 中 。 本 地 回环 地 址 为 :1 ， 用 于 本 地 回环 测试 。 

IPv6 允许 在 一 个 接口 上 配置 多 个 IPv6 地 址 。 因 此 一 个 接口 可 能 同时 有 多 个 全 球 单 播 地 址 和 本 地 链 
路 地 址 。 本 地 链 路 地 址 并 非 全 球 唯一 的 ， 因 此 经 常用 在 单条 链 路 上 用 于 自动 配置 地 址 和 邻居 发 现 。 本 
地 链 路 地 址 的 前 缀 为 111111010， 后 跟 56 个 0 和 64 位 的 接口 标识 符 。 接 口 标识 符 可 以 从 硬件 地 址 (如 
EUI -64 格式 ) 编码 得 到 ， 

IPv6 全 球 单 播 地 址 的 一 般 格式 如 图 4-31 所 示 。 为 了 支持 路 由 和 地 址 聚合 ， 全 球 路 由 前 绥 一 般 都 是 
层次 化 的 结构 。 此 外 ， 所 有 全 球 单 播 地 址 除了 以 二 进 制 000 开始 的 以 外 都 具有 64 位 接口 标识 符 的 字 
段 。 正 如 表 4-2 所 示 ， 目 前 可 分 配 的 全 球 单 播 地 址 具有 前 缀 2000::/3。 直 到 2009 年 11 月 ，IANA 已 经 
给 RIR (RIPE NCC、APNIC、ARIN、LACNIC 和 AfriNIC) 分 配 了 36 个 前 级 。 大 部 分 最 新 的 IPv6 单 播 
地 址 可 以 在 http: A//www. iana. org/assignments/ipv6 - unicast-address-assignments 上 找到 。 





n 位 m 位 128-n-m 位 
全 球 路 由 前 组 子 网 标识 符 接口 标识 符 














图 4-31 IPv6 全 局 单 播 地 址 格式 
IPv6 组 播 地 址 以 前 级 11111111 开始 ， 如 图 4-32 所 示 。 与 依靠 TTL 值 来 控制 组 播 范 围 的 IPv4 不 同 ， 
IPv6 组 播 地 址 包含 一 个 范围 字段 来 指示 组 播 范 围 ， 支 持 5 种 组 播 范 围 : 本 地 节点 、 本 地 链 路 、 本 地 站 
点 、 本 地 组 织 ， 以 及 全 球 。 它 还 有 一 个 带 有 了 位 的 标志 来 表示 这 个 组 播 地 址 是 临时 地 址 (T=1) 还 是 
众所周知 的 地 址 (提供 永久 组 播 服务 ) 。 
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HL | 标志 | 范围 组 标识 符 
标志 : 0RPT 范围 : 组 播 组 的 范围 
T=0: 众所周知 的 组 播 地 址 0000: 预 留 
T=1: 暂时 的 组 播 地 址 0001: 本 地 节点 范围 
P: 基于 前 级 或 不 基于 前 缀 的 地 址 分 配 0010: 本 地 链 路 范围 
(RFC 3306) 0101: 本 地 站 点 范围 
R: 杠 入 式 汇聚 点 地 址 或 不 企 入 1000: 本 地 组 织 范围 
(ee 谍 下 允 1110: 全 球 范围 


图 4-32 ”IPv6 组 播 地 址 的 格式 


174 | | | | 这 4 量 





有 些 组 播 地 址 保留 用 于 特殊 目的 ， 例 如，FF02:0:0:0:0:0:0:2 用 于 到 达 在 同一 个 物理 网 络 上 的 所 有 
路 由 器 。 表 4-3 列 出 了 一 些 预 留 的 组 播 地 址 
表 4-3 预 留 的 IPv6 组 播 地 址 
































范围 保留 地 址 目 的 
i | FFO1:0:0:0:0:0:0:1 | | 所 有 年 下 地 十 

bie FFO1:0:0:0:0:0:0:2 所 有 路 由 器 地 址 
FF02:0:0:0:0:0:0:1 | 所 有 节点 地 址 

本 地 链 路 FF02:0:0:0:0:0:0:2 所 有 路 由 天 地 址 
FFO2:0:0:0:0: 1 FFxx:xxxx | 请 求 节 点 地 址 

二 FF05:0:0:0:0:0:0:2 所 有 路 市 器 地 址 
FFOS:0:0:0:0:0:0:3 所 有 DHCP 服务 器 地 址 


4. 3. 6 自动 配置 

IPv6 有 一 个 非常 特别 的 功能 就 是 支持 自动 配置 。DHCP 在 每 个 网 络 中 需要 一 个 DHCP 服务 器 或 者 
一 个 中 继 人 代理， 与 DHCP 不 同 的 是 ，IPv6 支持 无 服务 器 的 自动 配置 .一 台 主 机 首先 产生 一 个 唯一 的 
本 地 和 链 路 地 址 。 包含 了 本 地 链 路 较 低 位 的 64 位 接口 标识 符 ， 可 以 从 其 唯一 的 硬件 地 址 ， 编 码 如 上 所 
述 。 然 后 主机 利用 这 个 地 址 发 送 一 个 路 由 器 请 求 信息 (一 个 ICMP 报 文 )。 一 旦 路 由 器 收 到 这 个 请 求 
言 息 ， 就 用 一 个 包含 子 网 前 级 信息 的 路 由 器 通告 信息 进行 应 答 。 然 后 主机 就 利用 这 个 前 级 产生 自己 
的 全 球 地 址 


4.3.7 从 IPv4 到 IPv6 的 迁移 

我 们 在 何 时 以 及 用 何 种 方法 将 现 有 的 互联 网 迁移 到 IPv6 网 络 呢 ”问题 在 于 作为 新 版 本 的 人 P 意味 着 
需要 新 版 本 的 网 络 软件 ， 而 且 也 不 可 能 在 某 一 天 让 互联 网 中 所 有 的 主机 都 将 自己 的 软件 版 本 同时 更 新 
为 支持 IPv6 的 。 在 这 种 情况 下 ， 互 联网 如 何 操作 才能 让 IPv6 兼容 的 主机 与 TPv4 兼容 的 主机 共存 呢 ? 
在 RFC 1933 中 建议 使 用 两 种 方式 : 双 栈 或 隧道 技术 ， 另 外 还 有 一 种 方式 ， 协 议 翻 译 ， 也 建议 用 来 解决 
IPv6 地 址 迁移 问题 。 

采用 双 栈 的 方式 就 是 让 一 台 主 机 (或 路 由 器 ) 同时 运行 IPv6 和 IPv4 两 种 协议 。 考 虑 一 个 既 包 括 
IPv4 兼容 主机 又 包括 IPv6 兼容 主机 的 子 网 。 一 台 IPv6 主机 将 同时 运行 ITPv6 和 IPv4， 这样 就 能 用 IPv4 
分 组 与 IPv4 兼容 的 主机 进行 通信 ， 利 用 IPv6 分 组 与 IPv6 兼容 的 主机 通信 。 另 一 个 例子 就 是 ， 计 :一 个 
有 纯 IPv6 网 络 的 子 网 路 由 器 同时 运行 IPv4 和 IPv6 协议 。 来 自 子 网 的 IPv6 分 组 离开 子 网 的 时 候 就 会 被 
路 由 器 转化 为 IPv4 分 组 。 另 外 一 方面 ， 路 由 器 接收 到 的 IPv4 分 组 在 转发 之 前 转化 成 IPv6 分 组 ,注意 
在 转化 过 程 中 或 许 会 丢失 一 些 信息 ， 因 为 这 两 种 协议 的 头 部 并 不 完全 兼容 。 

男 一 种 方法 就 是 IP 隧道 技术 ， 它 是 指 将 一 种 分 组 封装 到 男 一 种 IP 分 组 的 有 效 载荷 字段 中 的 处 
理 方 法 。 既 可 以 在 发 送 端 和 接收 端 之 间 ， 也 可 以 在 路 由 带 之 间 构 建 隧道 。 在 第 一 种 情况 下 ， 发 送 端 和 
接收 端 都 支持 IPv6， 但 它们 之 间 的 路 由 器 不 支持 IPv6。 发 送 端 就 可 以 将 IPv6 分 组 封装 到 一 个 IPv4 分 组 
中 并 使 用 目的 地 作为 接收 端的 地 址 。 这 个 IPv4 分 组 然后 以 普通 IPv4 分 组 在 IPv4 网 络 中 转发 ， 并 最 终 
到 达 接 收 端 。 知 道 接收 端 IPv4 和 IPv6 地 址 的 发 送 端 可 以 使 用 IPv4 兼容 的 IPv6 地 址 。 一 条 隧道 也 可 以 
在 两 台 路 由 天 之 间 建 立 。 考 虑 到 ITPv4 骨干 网 络 连 接 的 两 个 纯 IPv6 网 络 。 来 自 子 网 的 IPv6 分 组 封装 到 
一 个 IPv4 分 组 中 并 使 用 目的 地 作为 接收 端的 路 由 器 。 当 这 个 IPv4 分 组 到 达 接 收 端的 路 由 器 时 ， 路 由 器 
识别 这 是 一 个 封装 过 的 分 组 ， 然 后 解 封装 ， 提 取 并 转发 嵌入 的 IPv6 分 组 给 接收 端 。 对 于 隧道 有 很 多 建 
以， 已 经 提出 的 建议 包括 配置 隧道 和 自动 隧道 。 在 RFC 4380 中 提出 的 隧道 代理 ， 有 助 于 用 户 配置 双向 
取道 。 正 如 在 RFC 3056 中 所 述 ， 一 种 特殊 的 地 址 前 级 有 助 于 经 过 IPv4 云 将 TPvw6 域 连 接 起 来 ， 它 称 为 6 
到 4。 对 于 6 到 4 问题 将 IPv4 NAT 之 后 的 主机 连接 到 IPv6 主机 的 解决 方案 称 为 Teredo， 定 义 在 RFC 
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4380 中 ， 另 外 一 种 向 动 隧道 机 制 的 目的 是 经 过 IPv4 网 络 将 IPv6 主机 和 路 由 器 连接 起 来 ， 称 为 站 点 内 
自动 隐 道 地 址 协议 (Intra-site Automatic Tunneling Addressing Protocol，ISATAP)， 定 义 在 RFC 5214 中 

另外 一 种 有 效 的 方式 就 是 协议 翻译 转换 器 ， 就 是 当 纯 IPv4 主机 与 纯 IPv6 ee 将 一 种 
协议 翻译 为 另外 一 种 协议 。 协议 翻 译 转换 需要 在 IPv4 和 IPv6 网 络 之 间 有 一 台 ， 或 者 在 协议 栈 中 有 
-个 中 间 件 将 IPyv4 协议 和 地 址 翻译 成 ITPv6 ， 反 之 亦 然 pe nt 
(RFC 2766，4966) 、BIS (RFC 3338) 。 这 种 翻译 机 制 也 需要 DNS 扩展 以 便 支持 IPv6， 在 RFC 3596 中 
定义 


4. 4 控制 平面 协议 : 地址 管理 

在 本 节 中 ,我 们 主要 讨论 两 种 P 地 址 管理 机 制 。 在 4.4.1 节 中 ， 我 们 将 研究 用 来 翻译 互联 网 协议 
层 (第 3 层 ) 和 链 路 层 (第 2 层 ) 地 址 的 地 址 解析 协议 (ARP) 。 在 4.4. 2 节 中 ， 我 们 将 讨论 用 来 动态 
和 自动 配置 IP 地 址 的 动态 主机 分 配 协 议 (DHCP) 


4.4.1 地 址 解析 协议 

当 一 台 主 机 想 划 将 一 个 分 组 传送 到 目的 地 时 ， 主 机 首先 确定 目的 地 是 否 和 自己 位 于 同一 子 网 内 ， 
如 果 是 ， 则 分 组 直接 通过 链 路 层 到 达 目 的 地 ; 否则， 分 组 也 要 通过 链 路 层 发 送 到 路 由 器 然后 再 进行 转 
发 。 问题 在 于 IP 地 址 用 于 IP 层 ， 市 人 硬件 (MAC) 地 址 (如 48 位 以 太 网 地 址 ) 用 于 链 路 层 ， 主 机 是 如 
何 利 用 分 组 关 部 中 的 目的 IP 地 址 获得 目的 地 或 路 由 器 的 物理 地 址 呢 ? 因此 ， 我 们 震 要 一 种 地 址 解析 协 
议 将 IP 地 址 翻译 为 物理 地 址 ， 

通常 ， 地 址 解析 可 以 用 两 种 方法 实现 : 使 用 服务 占 或 不 使 用 服务 融 。 如 果 有 一 台地 址 解析 服务 虎 ， 
那么 所 有 的 主机 都 可 以 向 服务 器 发 送 注 册 消 息 ， 以 便服 务 器 能 够 知道 所 有 主机 的 IP 地 址 与 MAC 地 址 
之 间 的 映射 。 当 一 台 主 机 想 要 向 同一 子 网 内 的 主机 (或 路 由 器 ) 发 送 分 组 时 ， 它 可 以 查询 服务 器 。 为 
了 避免 在 每 一 台 主 机 上 手动 配置 地 址 解析 服务 咒 参 数 ， 主 机 可 以 广播 注册 消息 。 这 种 方法 的 缺点 是 ， 
在 每 个 耳 子 网 内 都 需要 一 台地 址 解析 服务 器 。 互 联网 采用 的 地 址 解析 协议 (ARP) ， 使 用 另 一 种 无 服 
务 器 的 方法 。 当 一 台 主 机 需要 查询 目的 物理 地 址 时 ， 它 就 广播 一 个 ARP 请 求 消息 。 目 的 地 收 到 请 求 后 
将 回应 一 个 ARP 应答 消 息 。 由 于 ARP 请 求 包含 发 送 端 的 人 和 MAC 地址 ， 所 以 目的 地 可 以 使 用 单 播发 
送 ARP 应 答 。 如 果 每 次 发 送 呈 分 组 前 都 运行 ARP， 那 么 就 会 太 低 效 了 。 因 此 ， 每 台 主 机 维护 一 张 (1IP 
地 址 ，MAC 地 址 ) 缓 奇 表 ， 这 样 如 果 可 以 在 缓存 中 找到 映射 就 没有 必要 再 运行 ARP 了 。 男 一 方面 ， 
ARP 采用 软 状态 方法 ， 它 允许 主机 动态 地 改变 它 的 下 地 址 或 MAC 地 址 (例如 ， 更 改 网 络 接口 卡 )。 也 
就 是 说 .缓存 表 中 的 每 一 个 表 项 都 关联 了 一 个 定时 器 ， 定 时 需 超 时 的 表 项 会 被 自动 地 删除 掉 。 由 于 
ARP 请 求 消息 是 一 种 广播 消息 ， 所 以 所 有 主机 都 可 以 接收 到 它 并 看 到 发 送 端的 下 地 址 和 MAC 地 址 
作为 “好 的 ”一 方面 ， 发 送 端的 缓存 表 项 可 以 通过 这 种 广播 消息 来 更 新 。 

在 某 些 特殊 的 情况 下 ,也 许 需要 一 种 从 MAC 地 址 到 IP 地 址 之 间 的 一 种 逆向 映射 ， 称 为 逆向 ARP 
协议 。 例如， 知道 自己 MAC 地 址 的 一 个 无 盘 工 作 站 可 能 需要 从 服务 器 获得 它 的 IP 地 址 ， 在 它 能 够 使 
用 外 地 址 访问 网 络 文件 系统 (NFS) 或 者 查询 用 于 启动 的 操作 系统 镜像 文件 之 前 。 接 下 来 ， 我 们 将 看 
到 ARP 也 支持 逆向 ARP 请 求 和 应 答 操 作 

ARP 分 组 格式 

ARP 协议 是 一 种 用 于 网 络 层 与 数据 链 路 层 之 间 协 议 翻 译 的 常用 协议 。ARP 分 组 的 格式 如 图 4-33 所 

地址 类 型 和 地 址 长 度 字段 允许 ARP 协议 用 于 多 种 网 络 和 链 路 层 的 协议 。 硬 件 地 址 类 型 和 协议 地 址 
类 到 消 示 处 别 用 于 办 吕 呈 村 网 绩 尼 的 及 最 常见 的 硬件 地 址 类 型 是 以 太 网 ， 值 设置 为 1; IP 协议 类 
型 值 为 00800。 地 址 类 型 字段 后 跟 两 个 长 度 字 段 : 硬件 地 址 长 度 和 协议 地 址 长 度 。 以 太 网 和 了 PP 分 别 使 用 
值 6 和 4。 操作 代码 表示 ARP 消息 的 操作 。 共 有 四 种 操作 代码 : 请 求 (1) 、 应 答 (2) 、RARP 请 求 (3) 和 
RARP 应 答 (4)。 接 下 来 的 两 个 字段 是 发 送 者 的 链 路 层 地 址 和 IP 地 址 。 最 后 两 个 字段 是 接收 者 的 链 路 
层 地 址 和 I 人 P 地址 。 在 一 个 ARP 请 求 消息 中 ， 发 送 者 将 以 0 来 填充 目标 硬件 地 址 字段 ， 因 为 它 并 不 知道 
接收 者 的 物理 地 址 
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0 8 16 24 31 
硬件 地 址 类 型 协议 地 址 类 型 
硬件 地 址 长 度 。 协议 地 址 长 度 操作 码 





发 送 者 硬件 地 址 (0-3) 





发 送 者 硬件 地 址 (4-5) 


发 送 者 协议 地 址 (0-1) 





发 送 者 协议 地 址 (2-3) 





目标 硬件 地 址 (0-1) 





目标 硬件 地 址 (2-5) 











目标 协议 地 址 





图 4-33 ARP 分 组 格式 


由 于 ARP 和 IP (以 及 其 他 的 网 络 层 协议 ) 两 者 都 在 链 路 层 帧 的 有 效 载 荷 中 携带 ， 所 以 在 链 路 层 头 


部 中 震 要 用 于 不 同 网 络 层 协议 分 组 复 用 或 解 复 用 的 控制 信息 


例如 ， 以 太 网 具有 一 个 2 字 节 的 类 型 字 


段 指 示 上 层 协 议 。 用 于 IP 和 ARP 的 协议 标识 符 是 不 同 的 ， 分 别 为 0x0800 和 0x0806。 在 以 太 网 中 ， 广 
播 一 个 ARP 请 求 消息 可 以 通过 将 目的 地 址 置 为 OxFFFFFFFFFFFF 来 实现 ， 


开源 实现 4.6: ARP 
概述 
ARP 协议 的 实现 需 


一 张 ARP 缓存 表 和 发 送 、 接 收 ARP 分 组 的 函数 .大 部 分 ARP 的 源 代 码 可 以 


在 src/net/ipv4/arp.c 中 找到 。 


数据 结构 


最 重要 的 数据 结构 是 arp tbl， 它 保存 ARP 使 用 的 最 重要 的 参数 。 将 arp tbl 定义 为 struct 
neigh table， 由 一 个 hash_buckets 表 项 组 成 ,存储 邻居 信息 的 ARP 缓存 ,下 面 显示 了 用 于 


neigh table 的 数据 结构 : 
struct neigh table 
! 
struct neigh table 
二 起 
int 
int 
32 
device *); 
ba 
neighbour *); 
i 
prieigh entry *):; 
void 
pneigh entry *); 
void 
Sk buff *skb); 
char 
struct neigh parms 
下 
int 
int 
120L 
unsigned long 
struct timer list 
struct timer list 
struct sk buff head 
atomic t 
rwlock 七 
unsigned long 
struct kmem cache 


(*hash) (const voidQ *pkey, 


wiext ; 

family; 

entry size; 

key_len; 

const struct net_ 


(sonstractor) (Struct 

(*pconstructor) (struct 

(*pdestructor) (struct 
(*proxy redo) (struct 


ka 
parms; 
Sa Nterval; 
Se thresh; 
ge thresh2s; 
ge _ thresh3; 
last, fl1ush; 
gc _ timer; 
proxy timer; 
proxy_queue; 
entries; 
lock; 
last rand; 
*kmem_ cachep; 


struct neigh statistics *stats; 


struct neighbour 
unsigned int 


**hash buckets; 
hash mask; 
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U32 hash rnd; 
unsignead int hash chain ge; 
struct pneigh entry **phash buckets; 

] 
框图 


发 送 和 接收 ARP 分 组 分 别 由 函数 arp send() 和 arp rcv() 实 现 。arp send() 和 arp rcv() 的 
函数 调用 如 图 4-34 所 示 。arp _send () 调 用 arp creat 创建 一 个 arp 分 组 , 而 arp xnit() 调 用 dev_ 
queue xnit 发 送 ARP 分 组 ， 当 ri ARP 分 组 时 ， 就 调用 arp process () 相应 地 处 理 分 组 。 



































在 arp process() 中 ,调用 neigh lookup () 使 用 源 中 地 址 作为 散 列 键 值 查找 hash bucket。 
arp_ send() 
一 人 | arp xmit() 一 dev queue xmit() 
| arp_rev() | arp process() Fw _ neigh lookup() | 














mn 


neigh lookup() 








图 4-34 arp send() 和 arp rcv() 的 调用 图 

算法 实现 

arpb process () 的 任务 是 发 送 应 答 ， 如 果 在 有 对 主机 的 请 en 的 其 他 人 的 主机 请 
求 时 ; 它 也 可 以 处 理 来 自 另外 一 个 人 (主机 曾 发 送 过 请 求 ) 的 一 个 应 答 。 对 于 后 一 种 情况 ， 更 新 ARP 
表 中 对 应 于 应 答 消息 的 源 表 项 。 为 了 实现 这 种 更 新 ，arp process ( ) 首先 调 用 niegh lookp() 找 到 
ARP 表 中 的 对 应 表 项 。 然 后 它 调用 neigh update () 更 新 这 Cs 

练习 

孙 数 _neigh lookup () 是 一 种 实现 散 列 柄 的 常见 函数 

1 用 一 个 免费 文本 搜索 或 交叉 索引 工具 来 找 出 哪个 函数 调用 _neigh lookup ()， 

2. 跟踪 neigh lookup () 并 解释 释 如 何 从 一 个 散 列 桶 中 查找 一 个 表 项 。 


4. 4. 2 动态 主机 配置 

从 4.2 节 中 ， 我 们 可 以 观察 到 每 台 主 机 需要 正确 地 配置 他 地 址 、 子 网 掩 码 和 默认 路 由 器 。( 我 们 
还 富 要 在 主机 上 配置 与 域名 服务 器 有 关 的 参数 ， 这 些 内 容 将 在 第 6 童 中 讨论 ,) 对 于 一 个 初出 茅 访 的 用 
户 ， 这 样 的 配置 过 程 没 有 任何 意义 ， 它 往往 还 会 成 为 网 络 管理 人 员 的 人 负担， 因为 配置 网 络 层 参 数 每 天 
都 会 发 生 错 误 ， ae 。 不 简 的 是 ， 与 以 太 网 卡 的 MAC 地 址 不 同 ， 这 些 参数 不 可 能 在 生 
产 制造 阶段 配置 ， 因 为 P 地 址 层 结构 的 缘故 。 显 然 ， 需 要 有 一 种 自 z 动 配 置 的 方法 IETF 建议 了 一 种 
动态 主机 配置 协议 (DHCP) ee 

通常 ，DHCP 遵循 客户 机 /服务 器 模型 。 一 台 充 当 客 户 机 的 主机 ， 将 其 请 求 发 送 给 DHCP 服务 器 ， 
而 服务 器 用 配置 信息 应 答 主 机 。 可 扩展 性 仍然 是 这 种 客户 机 /服务 器 模型 设计 的 主要 问题 。 首 先 ， 主 机 
如 何 到 达 DHCP 服务 器 ? 一 种 简单 的 方法 就 是 在 每 个 了 下子 网 中 都 有 一 个 DHCP 服务 器 ， 并 让 每 个 
DHCP 客 户 机 将 其 请 求 广播 到 它 所 在 的 子 网 中 。 但 是 ， 这 将 导致 需要 太 多 的 服务 器 。 为 了 解决 这 个 问 
题 ， 在 没有 DHCP 服务 占 的 子 网 中 可 以 使 用 中 继 代 理 。 中 继 代 理 将 DHCP 请 求 消息 转发 到 DHCP 服务 
融 ， 然 后 再 将 来 自 服务 器 的 应 答 返 回 给 主机 。 

可 用 多 种 方法 为 主机 分 配 一 个 JP 地址。 静态 配置 方法 将 一 个 特定 IP 地 址 映射 到 一 个 特定 的 主机 ， 
例如 ， 通 过 其 MAC 地 址 标识 每 一 台 主 机 。 这 样 做 的 好 处 在 于 可 以 更 好 地 管理 网 络 ， 因 为 每 台 主机 有 唯 
一 的 IP 地址 ，。DHCP 有 助手 自动 配置 每 台 主 机 的 下 地 址 ， 但 当 存 在 网 络 安全 问题 时 ， 为 了 追踪 哪 台 主 
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机 拥有 特定 的 IP 也 址 ， 手 动 配置 就 会 非常 容易 ;但 是 ， 当 子 网 内 的 主机 数 大 于 子 网 拥有 的 合法 IP 地 
址 数 时 ， 就 需要 另 一 种 方法 一 一 动态 配置 方法 ， 以 便 动态 地 为 活跃 主机 分 配 IP 地 址 。 在 这 种 方法 中 ， 
DHCP 服务 带 配 置 了 能 够 按 需 分 配给 主机 的 IP 地址 池 ， 当 主机 请 求 P 地 址 时 ，DHCP 服务 带 从 地 址 池 
中 选择 一 个 尚 末 分 配 的 IP 地址 并 将 它 分 配给 主机 。 这 种 方法 的 一 种 更 为 复杂 的 使 用 是 每 台 主 机 可 以 将 
其 喜爱 的 地址 ,一般 就 是 上 次 为 它 分 配 的 中 地 址 ， 发 送 给 服务 器 ， 服 务 器 在 该 地 址 当前 可 用 的 情 
况 下 会 将 它 分 配给 主机 。 为 了 防止 IP 地址 被 一 人 台 不 活跃 的 主机 占用 ， 服务 融 仅 将 IP 地 址 “ 租 给 ”一 
台 主 机 一 段 有 限 的 时 间 。 在 租用 时 间 过 期 之 前 ， 主 机 需要 再 次 请 求 下 地 址 ， 当 然 ， 当 前 指定 的 下 地 
址 将 是 首选 地 址 

DHCP 操作 

详细 的 DHCP 步骤 如 岁 4-35 所 示 。， 当 一 台 主 机 首次 启动 时 ， 它 将 广播 一 条 DHCPDISCOVER 消息 ， 
消息 装 在 一 个 UDP 分 组 中 并 使 用 端口 67。 所 有 接收 到 消息 的 DHCP 服务 器 将 在 UDP 端口 68 发 回 一 个 
DHCPOFFER 消息 。 如 果 有 多 种 给 予 服务 (offer) 选择 ,客户 机 将 从 中 选择 一 种 给 予 服务 (offer) ， 并 
回 提供 给 予 服务 (offer) 的 服务 器 发 送 一 条 DHCPREQUEST 消息 。 如 果 一 切 正 常 ， 服 务 器 就 回应 一 条 
DHCPACK 消息 。 此 时 ， 客 户 机 就 配置 了 IP 地 址 和 其 他 由 服务 器 提供 的 信息 。 在 租赁 更 新 定时 器 过 期 
之 前 (通常 设置 成 租赁 过 期 时 间 的 一 半 )， 窜 户 机 需要 再 次 发 送 一 条 DHCPREQUEST 消息 。 如 果 在 租 
用 重 绑 定时 间 之 前 没有 收 到 DHCPACK 消息 ， 客 户 机 就 再 次 发 送 一 个 DHCPREQUEST 消息 。 当 接收 到 
DHCPNACK 消息 或 者 当 和 租赁 定时 融 过 期 时 ， 客户 机 就 放弃 当前 它 的 JP 地 址 。 








DHCPNACK 


DHCPDISCOVER 或 者 释放 过 期 





DHCPOFFER 






DHCPNACK 


DHCPREQUEST 







重新 绑 定 过 期 
/DHCPREQUEST 


DHCPACK' 





重新 更 新 过 期 
/DHCPREQUEST 


DHCPACK 


图 4-35 ”DHCP 的 状态 图 

DHCP 分 组 格式 [ RFC 2131」 如 图 4-36 所 示 ， 这 是 从 BOOTP 导出 的 。( BOOTP 最 初 用 于 激活 自动 
司 动 配置 无 盘 工 作 站 )。 硬 件 类 型 用 于 表示 链 路 层 协 议 ， 硬 件 长 度 是 链 路 层 地 址 的 字 节 长 度 。 跳 字段 被 
客户 机 设置 为 零 ， 每 当 经 过 一 个 中 继 代理 时 就 递增 1。 如果 客 户 机 想 要 使 用 广播 地 址 而 非 其 硬件 的 单 
播 地 址 接收 应 答 ， 就 需要 设置 标志 中 的 B 位 。 有些 字段 用 于 BOOTP 但 未 被 DHCP 使 用 。 选 项 字段 用 来 
携 囊 一 些 额 外 的 信息 ， 如 子 网 掩 码 。 可 以 将 多 个 选项 打包 到 一 个 消息 中 。 选 择 字 段 是 以 4 字 节 的 魔 饼 
(magic cookie) 0x63825363 开始 的 ， 后面 跟 了 一 张 选项 列表 

每 一 种 选项 的 格式 ， 如 图 4-37 所 示 ， 由 一 个 3 位 组 头 部 和 跟 在 后 面 的 数据 字 节 组 成 。3 位 组 头 音 
包括 1 位 组 的 代码 、1 位 组 的 长 度 、1 位 组 的 类 型 字段 。 为 了 传输 不 同类 型 的 DHCP 消息 ， 代 码 值 设置 
为 53; 类 型 字段 值 如 表 4-4 所 示 ， 指 示 发 送 哪 种 消息 。 例如, 一 个 DHCPDISCOVER 消息 编码 为 代码 = 
53、 长 度 =1、 类 型 =1， 
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操作 | ”硬件 类 型 ”| 硬件 长 度 ”| 。 跳 数 





事务 标识 符 





种 数 [al 标志 





客户 机 IP 地 址 





你 的 叫 地 址 





服务 器 IP 地 址 





路 由 器 IP 地 址 





客户 机 硬件 地 址 (16 位 组 ) 





服务 器 主机 名 字 (64 位 组 ) 
目 = 启动 文件 名 字 〈128 位 组 ) 











选项 (可 变 ) 











图 4-36 ”DHCP 分 组 格式 


0 8 16 33 
| 代码 (53) | 长 度 (1) | 类 型 (1-7) 


图 4-37 ”DHCP 头 部 中 的 选项 字段 
表 4-4 DHCP 消息 类 型 
DHCP 消息 














类 型 DHCP 消息 DHCP 消息 


DHCP 消息 





1 DHCPDISCOVER DHCPACK 


DHCPREQUEST 


DHCPRELEASE 








2 DHCPOFFER DHCPDECLINE DHCPNACK 























对 于 每 种 类 型 的 DHCP 消息 ， 额 外 的 选项 装 入 到 代码 长 度 类 型 格式 中 并 被 添加 到 消息 的 最 后 。 例 
如 ，DHCPDISCOVER 消息 可 以 使 用 代码 50 来 指定 需要 的 卫 地 址 。 在 这 种 情况 下 ， 选 项 中 的 代码 =50、 


长 度 =4、 类 型 = 雷 要 的 下 地 址 
代码 : 0 填充 选项 

代码 : 1 子 网 扼 公 
代码 : 3 路 由 器 

代码 : 6 域名 服务 器 
代码 : 12 主机 名 称 
代码 : 15 域名 

代码 : 17 开机 启动 路 径 
代码 : 26 接口 最 大 传输 单元 (MTU ) 

代码 : 40NIS 域名 

代码 : 50 请 求 的 他 地址 (DHCPDISCOVER) 
代码 : 51IP 地 址 租用 时 间 

代码 : 53 消息 类 型 

代码 : 54 服务 右 标 识 符 

代码 : 55 参数 请 求 列表 

代码 : 56 错误 消息 

代码 : 57 最 大 的 DHCP 消息 大 小 

代码 : 58 更 新 (T1) 时 间 值 

代码 : 59 重新 绑 定 (T2) 时 间 值 

代码 : 60 供应 商 类 标识 符 

代号 : 61 客户 机 标识 符 

代码 : 255 结束 选项 

图 4-38 显示 了 一 个 DHCPOFFER 消息 选项 字段 


下 面 是 一 些 常 用 的 选项 LRFC 2132]: 


沾 
不 
全 


180 





0 8 16 34 3 
Op = 0x02 H.T. = 0x01 | H. Len = 0x06 | Hops = 0x00 
事务 标志 符 = 0x3981691221 
fs 标志 = 0x0000 

客户 机 IP 地 址 = 0x0000 

你 的 IP 地 址 = 192.168.1.2 

服务 器 !P 地 址 = 0x0000 

路 由 器 I!P 地 址 = 0x0000 

客户 机 硬件 地 址 = 00:00:39:1e:86:2a 

服务 器 主机 和 名字 /启动 文件 名 字 = 192 字 节 个 0 











秒 数 = ( 























选项 : 
魔 饼 = 0x63825363 
消息 DHCP 选 项 

Code; 53: Length: 1: Message Type: 2 (Oftfter) 
Server ldentifier DHCP Option 

Code; 54: Length: 4: Address: 192.168.1.1 
IP Address Lease Time DHCP Option 

Code: Sl: Length: 4: Value: 4294967295 
Subnet Mask DHCP Option 

Code: I: Length: 4: Address: 255.255.255.0 
Routers DHCP Option 

Code: 3; Length: 4: Address: 192.168.101.3 
Domain Name Servers DHCP Opton 

Code: 6: Length: 4: Address: 192.168.1.100 
DHCP Option End 

Code: 255:; 











图 4-38 一 个 DHCPOFFER 的 例子 


开源 实现 4.7: DHCP 
概述 
DHCP 作为 BOOTP 协议 变种 的 实现 。 信 息 是 在 以 魔 饼 (magic cookie) 0x63825363 开始 的 选项 字段 中 措 
带 的 。 验 证 过 这 种 魔 饼 (magic cookie) 之 后 ，DHCP 消息 根据 在 RFC 2132 中 定义 的 选项 代码 进行 处 理 。 
数据 结构 
用 于 BOOTPADHCP 协议 的 数据 结构 是 src/net/ipv4/ipconfig.c 中 的 struct bootp pkt。 


/* BOOTP packet format x/ 
/* IP header */ 


struct bootp pkt { 
struct iphdr iph; 


struct udphdr udph; 
u8 op; 

u8 htype:; 

u8 hlen; 

U8 hops; 

_ be32 xid; 

__ bel6 secs; 
started */ 

_ be16 flags; 

_ be32 client ip; 
if known */ 

_ be32 your ip; 

_ be32 server ip; 
Server’s IP address */ 
_ be32 relay ip; 
relay */ 

ua hw addr [16]; 

u8 Serv name [64] ; 
ua boot file[128]; 
8 extenl312]; 
vendor extensions */ 


上 
算法 实现 


/* UDP header */ 
/* l=request, 2=reply */ 
/* HW address type */ 
/* HW address length */ 
/* Used only by gateways */ 
/* Transaction ID */ 
/* Seconds since we 


/* Just what 
/* Client’'s 


it says */ 
IP address 


/* Assigned IP address */ 
/* (Next, e.g. NFS) 


/* IE address of BOOTP 


/* Client's HW address */ 
/* Server host name */ 
/* Name of boot file */ 
/* DHCP options/BOOTP 


如 果 定 义 了 自动 配置 , 那么 将 调用 ip auto config(), 并且 将 使 用 定义 的 协议 (RARP、BOOTP、 DHCP) 
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配置 主机 的 IP 地 址 和 其 他 参数 ”如 图 4-39 所 示 ， 如果 DHCP 服务 器 的 IP 地 址 已 知 , 从 ip aut o config () 
调用 ic bootp send if() 将 DHCPREQUEST 消息 发 送 到 DHCP 服务 器 ， 否 则 就 广播 DHCPDISCOVER 消息 

特别 地 ， 这 些 DHCP 消息 的 选项 ， 如 请 求 子 网 掩 码 和 默认 网 关 ， 是 由 ic dhcp init_options () 函数 设置 
的 。DHCP 客户 端 在 使 用 请 求 的 中 地 址 前 ， 需 要 等 待 一 个 DHCPACK， 参 见 ic_dynamic () 





ip auto config() 上 >| ic dynamic() > ic bootp send if() 


| 


ic_dhep init_options () 


ic bootp recv() wl ic do bootp ext () | 


图 4-39 ”DHCP 开源 实现 的 调用 图 



































接收 到 的 DHCP 信息 由 ic_bootp recv() 函数 来 处 理 。 只 有 DHCPOFEER 和 DHCPACK 消息 是 在 当 
前 实现 中 处 理 的 。 额 外 的 配置 信息 由 ic do bootp ext () 来 处 理 ， 目 前 仅 处 理 代码 1 ( 子 网 掩 码 )、3 
(默认 网 关 )、6 (DNS 服务 器 ) 、12 (主机 名 )、15 (域名 ) 、17 ( 根 路 径 )、26 (接口 MTU)、42 (NIS 
域名 ) ， 注意， 额外 的 配置 信息 总 是 DHCP 消息 的 最 后 一 部 分 以 0xFF 结束 (参见 图 4-38 中 的 例子 ) 

练习 

1. 跟踪 ic bootp recv () 并 解释 DHCP 消息 的 选项 字段 是 如 何 处 理 的 。 

2. RFC 2132 之 后 定义 了 很 多 新 的 DHCP 选项 。 以 RFC 5417 为 例 ， 阅 读 RFC 具体 看 看 已 经 定义 了 
什么 选项 


4.5 控制 平面 协议 : 错误 报告 
在 互联 网 上 偶尔 也 会 产生 错误 。 例 如 ， 一 个 分 组 由 于 TTL 等 于 孝 或 者 由 于 不 可 达 的 日 的 地 而 不 能 
一 步 转发 ， 回 想 你 经 常 在 浏览 器 中 看 到 的 错误 信息 ， 显 示 服 务 器 可 能 死机 了 。 互 联网 可 能 以 不 同方 
| 误 ， 例 如 ， 它 可 能 仅 忽 略 错误 并 悄 无 声息 地 丢掉 分 组 。 然 而 ,为 了 调试 、 管 理 和 跟踪 网 络 状 
况 ， 将 错误 报告 发 送 给 源 节点 或 中 间 路 由 器 是 一 个 更 好 的 解决 办 法 。 互 联网 控制 报 文 协议 (ICMP) 主 
要 用 于 问 源 节 点 报告 通过 路 由 器 或 者 主机 发 现 的 错误 。 它 也 可 以 用 于 信息 报告 。 


4.5.1 ICMP 协议 

ICMP 可 用 于 报告 TCPZTIP 协议 的 错误 和 主机 /路 由 带 的 状态 。 在 大 多 数 情 况 下 ，ICMP 作为 IP 的 一 
Ta 尽管 这 是 一 个 IP 层 的 控制 协议 , 但 ICMP 消息 由 下 分 组 携带 ， 也 就 是 说 ，ICMP 位 于 全 之 

， 如 图 4-40 所 示 。 因 此 ，ICMP 就 像 一 个 的 上 层 协议 。 一 个 ICMP 消息 是 在 IP 分 组 的 有 效 载 荷 中 
的 ，IP 报头 部 的 上 层 协议 标识 符 设 置 为 1， 用 于 复 用 和 解 复 用 的 目的 。 一 个 ICMP 消息 由 两 部 分 组 
成 : 头 部 和 数据 。 头 部 有 一 个 类 型 和 代码 字段 ， 如 图 4-41 所 示 。 一 个 ICMP 消息 的 有 效 载 位 可 能 包含 
用 于 信息 报告 的 控制 数据 ， 或 者 为 了 错误 报告 它 也 可 能 包含 头 部 和 错误 IP 分 组 的 部 分 有 效 载荷 〈 在 
RFC 792 中 ， 数 据 报 中 用 于 触发 错误 的 前 8 个 字 节 用 于 报告 ; 在 RFC 1122 中 ， 将 发 送 超过 8 个 学 节 ; 
在 RFC 1812 中 ， 路 由 澳 应 在 有 效 载荷 中 尽 可 能 多 地 报告 原始 数据 报 ， 只 要 ICMP 数据 报 长 度 不 超过 
576 字 节 ) 。 为 不 同类 型 的 ICMP 消息 定义 了 不 同 的 句法 格式 。 





ICMP 头 部 ICMP 数 据 











TP 头 部 IP 数 据 








图 4-40 ”IP 之 上 的 ICMP 
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0 8 16 24 3] 
类 型 代码 | 校 验 和 
数据 








图 4-41 ICMP 分 组 格式 
IPv4 常用 的 ICMP 消息 类 型 和 代码 列表 如 表 4-5 所 示 。 其 中 4 个 是 信息 消息 ， 分 别 是 echo 应 答 和 
请 求 、 路 由 器 通告 和 发 现 ， 其 余 为 错误 消息 。 为 了 让 源 知 道 一 个 目的 地 是 否 还 存在 ， 它 可 以 向 目的 地 
发 送 一 个 echo ( 回 显 ) 请 求 消息 。 目 的 地 收 到 echo 请 求 后 ， 就 用 一 个 echo 应答 消 息 作 为 响应 。 这 两 
种 消息 的 有 效 载荷 都 包含 一 个 16 位 标识 符 和 一 个 16 位 序列 号 ， 这 样 源 就 可 以 将 应 答 与 对 应 的 请 求 进 
行 匹 配 ， 如 图 4-42 所 示 。 著 名 的 调试 工具 ping 就 是 使 用 TCMP echo 请 求 和 eeho 应 答 消息 实现 的 ， 
表 4-5 IPv4 中 ICMP 的 类 型 和 代码 






























































类 型 | 代码 描 述 类 型 ”代码 描 述 类 型 | 代码 描 述 
0 0 echo 应 答 (ping) 3 5 源 路 由 故障 8 0 echo 请 求 ( ping) 
3 0 日 的 地 网 络 不 可 达 3 6 日 的 地 网 络 坟 知 9 0 路 由 通 告 
3 | 日 的 地 主机 不 可 达 3 了 日 的 地 主机 末 知 10 0 路 由 器 发 现 
3 2 目的 地 协议 不 可 达 4 0 源 抑 制 ( 拥塞 控制 ) 11 0 TIL 过 期 
3 | 3 | 目的 地 端口 不可 达 | 5 | 0 | 重 定向 (目的 地 网 络 ) | 12 | 0 | 二 的 IP 类 部 
3 4 需要 分 段 并 设置 DF 5 1 重 定 问 (主机) 

0 8 16 24 31 
类 型 =8 or 0 代码 =0 校 验 和 
标识 符 序列 号 
数据 








图 4-42 ICMP echo 请 求 和 应 答 消 息 格式 


在 ICMP 错误 消息 中 ， 目 的 地 不 可 达 (类 型 3) 用 来 报告 各 种 不 可 达 ( 如 网 络 、 主 机 或 端口 ) 的 
原因 。 然 而 ， 类 型 3 消息 中 的 代码 4 用 于 报告 在 中 间 路 由 器 (由 于 MTU) 需要 分 段 的 错误 ,但 在 IP 头 
部 中 设置 了 不 分 段位 。 类 型 4 和 5 的 消息 很 少 在 实际 中 使 用 。 源 抑制 消息 (类 型 4) 用 于 当 分 组 (由 
于 拥塞 ) 造成 源 缓冲 区 液 出 时 让 路 由 器 发 送 一 个 错误 消息 给 源 。 一 旦 收 到 源 抑 制 消息 ， 源 就 应 该 降低 
它 的 传输 速率 。 对 于 一 个 具有 超过 两 台 路 由 器 的 趾 子 网 ， 使 用 重 定向 消息 (类 型 5) 通知 主机 有 关 到 
达 目 的 地 的 一 条 更 好 的 替换 路 由 。 通常 ， 更 好 的 路 由 就 是 在 同一 子 网 内 向 另外 一 人 台 路 由 器 发 送 分 组 。 
类 型 12 消息 用 于 报告 下 头 部 中 的 错误 ， 如 无 效 的 中 头 部 或 错误 的 选择 字段 。 

当 趾 分 组 在 一 台 路 由 器 递减 后 的 TTL 为 零 时 ， 发 送 超 时 消息 (类 型 11 ) 给 源 主 机 。 这 种 类 型 的 
消息 特别 有 趣 ， 因 为 traceroute 程序 用 它 来 追踪 主机 到 目的 地 的 路 由 。 traceroute 程序 发 送 一 系列 的 
ICMP 消 息 给 目的 地 : 首先 它 回 目标 主机 发 送 一 个 TTL =1 的 ICMP echo 请 求 消息 。 当 到 达 目 的 地 路 径 上 
的 第 一 台 路 由 器 收 到 该 消息 时 ， 它 返回 一 个 超时 ICMP 错误 消息 ， 因 为 TTL 递减 后 为 0。traceroute 程序 
在 接收 到 超时 消息 后 ， 向 目的 地 发 送 男 一 个 TTL=2 的 echo 请 求 消息 。 此 时 ， 消 息 会 通过 第 一 台 路 由 
瞪 但 将 被 第 二 台 路 由 器 丢弃 ， 然 后 第 二 台 路 由 器 将 向 源 发 送 另 一 个 超时 消息 。Traceroute 程序 用 TTL 递 
增 的 值 继续 发 送 ICMP echo 请 求 消息 ， 直 到 它 接收 到 从 目的 地 来 的 应 答 为 止 。 当 traceroute 程序 接收 到 

-个 超时 消息 时 ， 它 就 学 习 到 路 径 上 的 一 台 路 由 器 。 (注意 ， 实 际 上 大 多 数 traceroute 程序 对 于 给 定 的 
TTL 值 会 发 送 3 个 echo 请 求 消息 ， 并 记录 来 自 每 台 路 由 器 的 响应 时 间 。) 
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对 于 下 一 代 互 联网 协议 ， 定义 了 一 套 新 的 ICMP 类 型 和 代码 ， 如 表 4-6 所 示 。ICMPv6 的 分 组 格式 
与 ICMPv4 相同 ， 但 ICMPv6 类 型 字段 值 以 一 种 更 容易 识别 的 方式 定义 ,这 样 错误 消息 类 型 小 于 127， 


而 消息 类 型 则 大 于 127 但 小 于 256， 























表 4-6 ICMPv6 类 型 和 代码 
类 型 代码 描述 类 型 代码 描述 类 型 | 代码 描述 
1 0 | 没有 到 达 目 的 地 的 路 由 4 | 0 | 遇 到 错误 的 头 部 字段 132 | 0 | 组 播 监听 者 完成 
1 | 1 | 管理 性 地 禁止 与 日 的 地 的 通信 | 4 | 1 | 不 可 识别 的 下 一 个 头 部 类 型 | 133 | 0 | 路 由 器 请 求 
1 | 3 | 地 址 不 可 达 4 | 2 | 遇 到 不 可 识别 的 IPw6 选项 “| 134 | 0 | 路由器 通告 
1 4 端口 不 可 达 128 | 0 echo 请 求 135 | 0 邻居 请 求 
2 | 全 | 兴 细 类 类 129 | 0 | echo 应 答 136 | 0 | 邻居 通告 
3 | 0 | 在 传输 中 超过 跳 限制 130 | 0 | 组 播 监听 者 查询 137 | 0 | 重 定向 
3 | 1 | 二 过 分 段 重组 时 间 131 | 0 | 组 播 监听 者 报告 
































开源 实现 4.8: ICMP 

概述 

当 分 组 不 能 转发 或 者 当 接收 到 某 些 ICMP 服务 请 求 〈 如 一 个 ECHO 请 求 ) 时 ， 就 发 送 一 个 ICMP 消 
息 。 对 于 前 一 种 情况 ， 在 分 组 转发 过 程 中 发 送 一 个 ip_forward() 或 ip route input slow() 的 
ICMP 消 息 。 对 于 后 一 种 情况 ， 从 链 路 层 接收 一 个 ICMP 消息 ， 并 且 调 用 icmp_rcv () 来 处 理 请 求 

数据 结构 

为 了 通过 不 同 的 处 理 程序 处 理 不 同类 型 的 IJCMP 消息 ,使 用 icmp pointers[] 表 来 存储 ICMP 处 
理 程序 (参见 src/net/ipv4/icmp. c)。 例如 ，icmp unreach () 用 于 类 型 3、4、11 和 12; icmp 
redirect () 用 于 类 型 5; icmp_echo () 用 于 类 型 8; icmp timestamp () 用 于 类 型 13; icmp_ad- 
dress () 用 于 类 型 17; icmp address reply() 用 于 类 型 18; 而 icmp discard() 用 于 其 他 类 型 
icmp pointers[] 表 建立 如 下 : 


statie const struct icmp _ centrol icemp pointers [INR 


ICMP TYPES + 1] = 1 
[ICMP REDIRECT] = { 
handler 三 cmp redirect., 


二 中 7 


}; 


CMP ECHO] = |{ 
handler = icmp echos 


}, 


CMP_ TIMESTAMP] = { 
.handler = icmp timestamp, 








[CMP ADDRESS] = { 
handler = icmp_ address, 
}， 
ICMP ADDRESSREPLY] = { 
‘handler = icmp address reply., 
}, 
}i 
算法 实现 


图 4-43 显示 了 发 送 和 接收 ICMP 消息 的 调用 图 。 当 转发 IP 分 组 时 将 调用 ip forward() 来 处 理 分 
组 。 如 果 分 组 有 错误 ，ip forward () 将 调用 icmp_send () 发 送 一 个 ICMP 消息 给 源 主机 。 在 ip 
forward () 中 检验 分 组 的 一 系列 步骤 如 下 : 首先 ， 如 果 分 组 的 TTL 小 于 或 等 于 1， 将 发 送 一 个 ICMP 超 
时 消息 。 其 次 ， 如 果 要 求 严 格 源 路 由 并 且 从 路 由 表 中 获得 的 下 一 跳 不 是 分 组 指定 的 路 由 器 ， 那 么 就 发 
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送 一 个 ICMP 目的 地 不 可 达 消 息 。 再 次 ， 如 果 需 要 路 由 重 定向 ， 就 调用 ip rt send redirect () 重 
定向 分 组 ， 它 然后 调用 icmp_send () 发 送 一 个 ICMP 重新 定向 消息 。 最后， 如 果 分 组 长 度 大 于 接口 的 
MTU， 并 且 设 置 了 不 分 段位 ， 那 么 就 发 送 ICMP 目的 地 不 可 达 消 息 (代码 =4，ICMP FRAG NEEDED) 。 


se 


ip_dhcp_init_options () “六 -一 icmp send() 


lp route _ input slow() -一 ip_ error () 


icmp unreach() 
icmp recvy() k 
icmp echo() 


图 4-43 发 送 和 接收 一 个 ICMP 消息 的 调用 图 

当 接 收 到 不 能 与 存储 在 缓存 中 的 所 有 路 由 匹配 的 IP 分 组 时 ， 将 由 ip _ route input slow 函数 来 
处 理 。 如 果 路 由 表 查 询 结 果 返 回 RIN UNREACHABLE， 那么 就 调用 ip error ()， 它 将 调用 
icmp _ send () 向 源 发 送 一 个 ICMP 目的 地 不 可 到 达 消 息 。 

最 后 ， 让 我 们 学 习 如 何 处 理 到 达 的 ICMP 分 组 。 当 接收 到 一 个 ICMP 消息 时 ， 网 络 接口 卡 的 下 半 部 
中 断 处 理 程 序 将 调用 icmp rcv () 函数 ， 然 后 根据 ICMP 消息 的 类 型 字段 再 调用 合适 的 ICMP 类 型 处 理 
程序 ， 大 多 数 TCMP 类 型 是 由 icmp_unreach () 函数 处 理 的 。 除 了 检查 接收 到 的 TCMP 消息 外 ， icmp 
unreach () 函数 将 错误 分 组 传递 到 适当 的 上 层 协 议 ， 条 件 是 如 果 协 议 的 错误 处 理 程序 已 经 定义 . 收 到 
的 echo 请 求 由 icmp echo () 函数 处 理 ， 因 此 如 果 echo 应 答 选 项 没有 禁止 ， 那 么 将 一 个 echo 应 答 返 回 
给 源 节点 

最 后 ，ICMPv6 函数 以 相似 的 方式 实现 (参见 src/net/ipv6/icmp. c)。ICMP 消息 是 由 icmpv6 
_send () 发送 的 ， 同 时 调用 icmpv6_rcv () 接 收 1ICMP 消息 。echo 应 答 消息 由 icmpv6 echo reply () 
回答 ， 其 他 错误 信息 (如 分 组 太 大 、 目 标 不 可 达 、 超 时 和 参数 问题 ) 由 icmpv6 notify() 来 处 理 
如 果 已 经 定义 了 错误 处 理 程序 ， 那 么 它 会 将 错误 分 组 传递 绘 上层 协 议 。 邻 居 发 现 是 IPv6 的 一 个 新 的 功 
能 特点 ， 由 5 种 消息 类 型 组 成 : 路 由 器 请 求 、 路 由 器 通告 、 邻 居 请 求 、 邻 居 通 告 、 路 由 重 定位 。 一 旦 
接收 到 这 些 类 型 的 消息 ， 就 调用 函数 ndisc rcv () (参见 src/net/ipv6/ndisc.c)， 同时 该 函数 
根据 消息 类 型 切换 到 不 同 的 函数 。 例如， 调用 ndisc _ router discovery() 处 理 路 由 器 通告 

练习 

为 traceroute 程序 编写 伪 代 码 ， 假 定 你 可 以 在 内 核 中 调用 ICMP 函数 


4.6 控制 平面 协议 : 路 由 

在 数据 平面 中 ， 我 们 已 经 学 习 了 一 台 路 由 器 如 何 通 过 查找 其 路 由 表 来 转发 分 组 。 假设 可 以 正确 地 
建立 和 维护 路 由 表 ， 转 发 过 程 就 非常 简单 和 直接 。 不 过 ， 所 有 这 些 都 依赖 于 路 由 任务 来 计算 路 由 和 维 
护 路 由 表 。 在 本 节 中 ， 我 们 将 首先 讨论 路 由 基本 原则 ， 然 后 说 明 路 由 是 如 何在 互联 网 上 实现 的 。 


4.6.1 路 由 原理 

IP 层 的 任务 就 是 提供 主机 到 主机 之 间 的 连通 性 。 这 种 连通 性 允许 从 一 台 主 机 向 另 一 台 远 程 主机 发 
送 分 组 。 为 了 实现 这 个 任务 ， 需 要 为 每 对 源 - 目的 地 建立 一 条 路 由 (一 系列 相 邻 的 路 由 器 )， 以 便 分 
组 可 以 沿 着 路 由 转发 。 从 源 到 上 日 的 地 主机 查找 路 由 的 任务 称 为 路 由 

路 由 机 制 震 要 的 属性 包括 效率 、 稳 定 、 健 半 、 公 平和 可 扩展 的 . 由 于 因特网 使 用 分 组 交换 ， 所 以 
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资源 共享 和 分 组 的 存储 转发 是 由 路 由 器 实现 的 。 因 此 ， 路 由 的 主要 目标 就 是 实现 有 效 的 资源 共享 同时 
维持 良好 的 性 能 一 一 例如 低 时 延 和 低 的 分 组 丢失 ， 最 优 路 由 的 目标 应 该 能 最 大 化 资源 利用 、 最 小 分 组 
延 信和 最 小 化 数据 分 组 天 失 (注意 这 些 目 标 可 能 是 相互 冲突 的 ) 。 在 互联 网 中 ， 可 扩展 性 是 非常 重要 
的 。 可 扩展 的 路 由 包括 一 个 路 由 表 使 用 的 可 扩展 的 数据 结构 、 一 种 可 扩展 的 路 由 信息 交换 机 制 、 一 种 
可 扩展 的 路 由 计算 算法 :另外 ,在 路 由 内 不 要 形成 环 路 非常 重要 ， 因 为 分 组 循环 可 能 会 浪费 大 量 的 带 
宽 并 使 网 络 变 得 不 稳定 。 由 于 在 互联 网 中 存在 大 量 的 路 由 器 ， 所 以 需要 健壮 的 路 由 以 防 出 现 故障 的 链 
路 或 路 由 融 ， 即 防止 单 点 故障 影响 整个 网 络 。 最 后 ， 还 需要 公平 性 ， 因 为 节点 也 应 该 同等 对 待 

有 二 大 类 路 由 : 点 到 点 、 单 点 到 多 点 和 多 点 到 多 点 。 第 一 类 称 为 单 播 路 由 ， 而 另外 两 类 称 为 组 播 
路 由 。 对 于 单 播 传输 ， 分 组 是 从 一 个 源 节点 到 一 个 目的 地 。 对 组 播 传 输 ， 可 能 会 有 一 个 或 多 个 源 主机 ， 
分 组 从 这 些 源 主 机 转发 到 多 个 目的 地 主机 。 显 然 ， 单 播 路 由 与 组 播 路 由 截然 不 同 。 更 常见 的 情况 是 ， 
单 播 路 由 就 是 在 源 主机 和 目的 地 主机 之 间 找 到 一 条 路 径 ， 而 组 播 路 由 就 是 从 一 个 或 多 个 源 到 多 个 目的 
地 之 间 找 到 多 条 路 由 ， 这 通常 形成 一 个 树 状 结构 ， 常 称 为 组 播 树 。 在 本 节 中 ， 我 们 重点 介绍 单 播 路 由 ， 
而 组 播 路 由 留 到 下 一 节 讲 解 。 

全 球 或 局 部 信息 

单 播 路 由 协议 在 使 用 的 路 由 信息 类 型 、 路 由 信息 如 何 交 换 、 如 何 确定 路 由 等 方面 区 别 于 其 他 的 路 
由 协议 。 一 条 路 径 可 以 根据 网 络 的 全 球 (完全 ) 信息 或 本 地 (部 分 ) 信息 计算 。 如 果 提 供 全 球 信息 ， 
路 由 计算 就 可 以 考虑 网 络 中 的 全 部 路 由 器 和 网 络 连接 状态 。 和 否则 ， 路 由 计算 仅 考虑 来 自 邻 近 路 由 器 和 
链 路 的 信息 。 在 路 由 融 之 间 震 要 交换 路 由 信息 ， 以 便 获 得 全 球 或 本 地 网 络 的 信息 。 通 常 ， 全 球 信 息 是 
通过 可 靠 的 广播 机 制 获得 的 ， 而 本 地 信息 可 以 通过 与 相 邻 邻居 交换 信息 获得 。 

如 何 确定 路 由 可 以 通过 几 个 方面 来 检查 。 首先 ， 一 条 路 由 既 可 以 动态 地 也 可 以 静态 地 确定 。 静 态 
路 由 表 可 以 由 网 络 管理 员 手 动 配置 。 但 是 ， 它 们 不 能 适应 动态 的 网 络 故障 。 因 此 ， 应 用 路 由 协议 动态 
地 更 新 互联 网 中 的 路 由 表 。 其 次 ， 可 以 采用 集中 式 或 分 布 式 算 法 确定 路 由 ， 集 中 式 的 算法 需要 全 局 信 
息 ， 它 们 既 可 以 在 一 个 中 央 站 点 也 可 以 分 布 式 地 在 每 台 路 由 器 上 运行 ， 玉 联网 上 的 基 些 路 由 协议 采纳 
后 一 种 方法 ， 所 谓 的 半 集 中 式 算 法 ， 以 取得 更 好 的 健壮 性 。 但 是 ， 某 些 互 联网 路 由 协议 使 用 分 布 式 算 
法 分 布 式 地 确定 路 由 。 最后， 路 由 可 以 在 每 台中 间 路 由 器 逐 跳 地 确定 也 可 以 在 源 主 机 上 上 计算。 如果 路 
由 在 每 跳 ( 路 由 融 ) 单独 完成 ， 那 么 既 可 以 采用 半 集 中 式 的 算法 也 可 以 采用 分 布 式 的 算法 。 互 联网 采 
用 逐 跳 路 由 作为 默认 路 由 机 制 ， 同 时 也 支持 源 路 由 作为 可 选项 。 

什么 是 最 佳 的 路 由 ?7 不同 的 应 用 程序 可 能 有 不 同 的 标准 。 交 互 式 应 用 例如， 远程 登录 可 能 想 要 
一 条 最 小 延 信 的 路 由 ， 而 多 媒体 应 用 程序 可 能 想 要 一 条 带宽 充足 以 及 低 延 时 和 拌 动 的 路 由 。 传 统 上 ， 
一 条 链 路 附带 了 用 来 描述 路 由 经 过 该 链 路 所 需要 的 成 本 。 例 如 ， 一 条 链 路 的 成 本 可 以 体现 链 路 上 的 延 
述 或 可 用 带宽 。 路 由 问题 就 可 以 建 模 为 一 个 图 论 问 题 ， 其 中 节点 是 路 由 器 、 边 是 链 路 。 将 网 络 转换 成 
一 个 图 后 ， 路 由 问题 就 等 价 于 最 小 成 本 路 径 问 题 。 在 互联 网 中 采用 两 种 类 型 的 路 由 算法 ， 以 便 解 决 最 
小 成 本 问题 ， 链 路 状态 路 由 算法 和 距离 矢量 路 由 算法 。 我 们 将 详细 地 学 习 这 两 种 算法 。 

逐 跳 路 由 的 优化 

尔 可 能 想 知道 如 果 路 由 是 在 每 台 路 由 顺 上 单独 完成 ， 那 么 我 们 怎样 才能 确定 分 组 会 在 最 优 路 由 上 
转发 ? 原因 是 存在 一 个 互联 网 逐 跳 路 由 的 最 优 原则 。 也 就 是 说 ， 如 果 上 是 从 源 * 到 目的 地 d 最 优 路 由 上 
的 一 个 中 间 节 点 ， 那 么 在 从 * 到 d 的 最 佳 路 由 上 的 从 * 到 的 路 由 也 是 从 到 的 最 优 路 由 。 因 此 ， 每 
台 路 巾 器 可 以 简单 地 相信 它 的 邻居 ， 如 果 这 位 邻居 位 于 到 达 远 程 目的 地 的 最 优 路 由 的 下 一 跳 ， 那 么 这 
位 邻居 将 确实 知道 如 何 沿 着 最 优 路 径 将 分 组 转发 到 目的 地 。 根 据 最 优 原则 ， 每 台 路 由 器 可 以 以 自己 为 
根 扩展 到 网 络 上 的 其 他 路 由 器 来 构建 最 短路 径 树 。 


行动 原则 : 最 佳 路 由 

在 文献 中 ， 用 一 张 图 来 说 明 路 由 问题 。 一 张 图 C= (N, 忆 ) 由 一 组 节点 N 和 一 组 边 已 组 成 。 对 应 
于 瑟 路 由 问题 ， 在 图 中 的 一 个 节点 代表 互联 网 上 的 一 台 路 由 器 ， 在 两 个 节点 间 的 边 代表 两 台 相 邻 路 由 
器 之 间 的 物理 链 路 .图 4-44 显示 了 这 种 图 模型 的 例子 。 
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图 4-44 路 由 计算 的 图 模型 

路 由 问题 就 是 要 找到 一 条 从 源 节 点 到 目的 地 节点 之 间 的 路 径 。 显然 ， 在 每 对 源 和 目的 地 对 之 间 有 
很 多 可 选 路 径 。 最 优 路 由 就 是 选择 每 个 源 到 目的 地 对 之 间 的 最 佳 路 由 。 但 是 何谓 最 佳 路 由 ? 如 何 定义 
路 径 质 量 ? 在 如 图 4-45 中 ， 我 们 可 以 看 到 每 条 边 都 关联 了 一 个 成 本 。 在 图 模型 中 ， 路 径 成 本 定义 为 沿 
着 路 径 上 所 有 边 的 成 本 的 总 和 。 假设 给 出 了 边 的 成 本 ， 最 优 路 由 问题 就 变 成 了 查找 最 低 成 本 路 径 问 题 
此 外 ， 如 果 图 中 的 所 有 边 具有 相同 的 成 本 ， 那 么 最 低 的 成 本 路 径 就 变 成 了 最 短路 径 。 在 20 世纪 50 年 
代 ， 在 图 论 理 论文 献 中 提出 了 一 些 著名 的 算法 ， 如 Kruskal 算法 和 Dijkstra 算法 。 大 部 分 这 些 算 法 其 实 
就 是 寻找 从 源 节点 到 图 中 其 他 所 有 节点 的 最 短路 径 ， 称 为 最 短 生成 树 或 最 小 生成 树 。 


For each v in V-{s} { 
Ifvis adjacent tos 


COPDJ=Lcfs,D) 
pW)=s 
Else 
C(y)=% 
} 
T={s} 


While (TV) { 
find w not in T s.t, C(w) is the minimum for all w in (V-7) 
T=TU {w} 
Foreachyvin V-T{ 
Cy) = MIN(C(Y), C(w)+lc(w,r)) 
I (CCCOw)+He wr) > COr) p(r) = w 











图 4-45 ”Dijkstra 算法 

显然 ， 如 何 定义 边 的 成 本 决定 着 最 小 成 本 路 径 的 质量 和 含义 。 在 某 些 路 由 协议 (如 RIP) 中 ,将 
所 有 边 的 成 本 设置 为 1， 最 小 成 本 路 径 就 变 成 了 最 短路 径 ， 即 具有 最 少 跳 数 的 路 径 或 穿越 最 少 路 由 器 
数量 的 路 径 。 这 似乎 是 个 合理 的 选择 ， 因 为 通过 路 由 器 会 引入 额外 的 处 理 、 传 输 和 排队 延迟 。 但 是 ， 
每 台 路 由 器 具有 不 同 的 处 理 能 力 ， 每 条 边 也 可 能 有 不 同 的 带宽 以 及 来 自 其 他 地 方 的 流量 。 因 此 ， 一 些 
其 他 的 路 由 协议 (如 OSPF) 允许 对 边 定 义 不 同 的 成 本 ， 每 一 个 对 应 某 种 服务 质量 度量 ( 如 延迟 、 带 
宽 、 可 靠 性 或 分 组 丢失 ) 。 可 能 支持 多 张 路 由 表 ， 每 张 表 对 应 一 种 QoS 类 型 。 总之， 虽然 边 的 成 本 假定 
在 图 抽象 模型 中 给 出 ， 但 如 何 定义 边 的 成 本 对 于 确定 最 优 路 径 〈( 即 最 小 成 本 路 径 ) 的 质量 非常 关键 。 

链 路 状态 路 由 

链 路 状态 路 由 需要 全 局 信息 计算 最 短 成 本 路 径 。 全 局 信息 是 指 带 有 所 有 链 路 成 本 的 网 络 拓扑 ， 并 
且 它 是 通过 将 它 相 邻 外 出 链 路 的 成 本 广播 到 网 络 中 所 有 其 他 路 由 器 获得 的 。 因 此 ， 网 络 中 的 所 有 路 由 
器 都 有 一 张 网 络 拓扑 和 链 路 成 本 的 一 致 视图 。 然后 利用 Dijkstra 算法 计算 每 台 路 由 器 的 最 小 成 本 路 径 
因为 所 有 路 由 上 融 使 用 相同 的 最 小 成 本 路 径 算法 和 网 络 拓扑 去 构建 它们 的 路 由 表 ， 分 组 将 以 逐 跳 的 方式 
在 最 小 成 本 路 径 上 转发 〈 见 互联 网 逐 跳 路 由 的 最 优 原则 ) 。 

Dijkstra 算法 计算 网 络 中 源 节点 到 所 有 其 他 节点 的 最 小 成 本 路 径 . 形成 一 棵 最 小 生成 树 。 然 后 根 
据 这 个 最 小 生成 树 构建 路 由 表 。Dijkstra 算法 的 基本 思想 就 是 迭代 地 找 出 到 达 所 有 其 他 节点 的 最 小 成 
不 路 径 。 在 每 次 迭代 中 ， 选 择 一 条 从 源 节 点 到 一 个 目的 地 节点 之 间 的 最 小 成 本 路 径 。 也 就 是 说 ， 经 


互 妖 网 施 议 层 | 187 





过 上 次 迭代 后 ， 到 目的 地 节点 的 上 条 最 小 成 本 路 径 就 找到 了 。 因 此， 对 一 个 及 个 节点 的 网 络 ， 
Dijkstra 算法 将 迭代 N -1 次 才 会 终止 。 图 4-45 显示 了 Dijkstra 算法 的 伪 编 码 。 在 伪 编 码 中 使 用 了 以 
下 得 号 s 

ele(s, 0); 从 节点 s 到 节点 vw 的 链 路 成 本 。 如 果 节 点 s 和 节点 不 是 直接 连接 的 ， 那 么 从 节点 * 到 

和 点 了 的 链 路 成 本 设置 为 无 穷 大 

se CC): 到 当前 节点 的 迭代 ， 即 从 源 节 点 s 到 节点 4 的 最 小 成 本 路 径 

ep(v): 沿 着 最 短路 径 节 点 的 直接 前 驱 (后 继 ) 节点 

e7: 最 小 成 本 路 径 已 知 的 节点 集合 

最 初 ， 节 点 仅 需 要 知道 它 的 外 出 链 路 的 链 路 成 本 。 到 一 个 邻接 节点 的 成 本 设置 为 和 它 直接 相连 
链 路 的 成 本 。 算 法 维护 了 一 个 在 最 小 生成 树 上 的 节点 集合 7。 最初, 了 仅 包含 源 节 点 s。 在 每 次 迭代 
中 ， 它 将 从 不 在 生成 树 上 的 节点 中 选 出 具有 最 小 成 本 wC(z) 的 和 节点。 将 节点 w 添加 到 树 ( 即 集合 7) 
上 后 ， 如 果 从 源 到 vw 的 成 本 因为 经 过 了 新 添加 的 节点 w 而 减少 ， 那 么 就 更 新 不 在 树 上 的 节点 v 的 成 本 。 
while 循环 保证 经 过 NN-1 次 迭代 后 终止 ，p(v) 记录 在 最 小 生成 树 上 vw 的 父 节 点 。 路 由 表 可 以 根据 p(w) 
来 建立 。 

让 :我 们 通过 一 个 实例 来 更 深入 地 剖析 Dijkstra 算法 。 考 虑 图 4- 46 中 以 节点 4 为 源 节点 的 网 络 。 
图 4-47 汇 总 了 和 迭代 的 结果 。 起 初 , 4 仅 知 道 到 B 和 C 的 成 本 分 别 是 4 和 1， 到 DD 和 的 成 本 是 无 穷 大 ， 
因为 它们 没有 连接 到 节点 4。 在 每 次 迭代 中 ， 选 择 具有 最 小 成 本 但 又 不 包含 在 集合 7 中 的 一 个 节点 
(随机 选择 就 会 断 开 某 个 存在 的 连接 ) 。 因 此 ， 在 第 一 次 迭代 中 ， 选 择 节点 C 并 添加 到 集合 7 中 ,这 也 
意味 着 节点 4 到 节点 C 的 最 小 成 本 路 径 现 在 确定 并 且 成 本 等 于 1。 有 了 该 信息 ， 所 有 其 他 节点 现在 就 
能 够 通过 节点 C 连接 到 4 了 。( 逐 跳 路 由 的 最 优 原 则 )。 例 如 ，D 和 现在 可 以 从 D (或 k) 到 C 和 从 
C 到 达 4 最 小 成 本 的 总 和 通过 C 到 达 4。 我 们 还 可 以 观察 到 ， 如 果 路 径 经 过 C， 那 么 到 B 的 成 本 还 可 以 
进一步 降低 ， 即 从 4 到 C， 然 后 再 从 C 到 有。 在 第 一 次 迭代 结束 时 ，C 已 经 添加 到 集合 7 中 。 此 外 ，B、 
D 和 已 经 更 新 了 从 4 到 达 它 们 的 最 小 成 本 。 在 第 二 次 迭代 中 ，E 具有 最 小 成 本 ， 因 此 添加 到 集合 7 
中 。 从 4 到 D 的 最 低 成 本 也 被 更 新 ， 因 为 从 4 到 DD 经 过 E 的 路 径 具 有 的 成 本 比 通过 C 的 路 径 成 本 小 。 
循环 继续 直到 所 有 的 节点 都 添加 到 集合 7T 中 ， 如 图 4-47 所 示 。 通 过 使 用 前 驱 节 点 的 信息 就 可 以 构建 从 
4 到 达 所 有 其 他 节点 的 最 小 成 本 路 径 。 不 要 忘记 路 由 算法 的 任务 是 构建 路 由 表 。 构 建 了 从 4 到 所 有 其 
他 节点 的 最 小 成 本 路 径 后 , 4 最 后 的 路 由 表 如 图 4-48 所 示 。 例如， 图 4-47 的 结果 显示 从 4 到 DD 的 最 小 
成 本 路 径 是 4- >C- > 瑟 - > 刀 ， 路 径 成 本 为 3。 因 此， 图 4-48 中 从 4 到 DD 的 下 一 跳 是 C， 成 本 为 3。 





图 4-46 一 个 网 络 实例 


迭代 了 C(B) .p(B) CC) .p(CJC(D).p(DJC(E) .5(E) 
0 | 4 1.4 i 3 
1 AC Sr x 人 2.C 
> ACE 3.C 3.E 
3 ACEB | 3 人 2 
ACEBD | 


图 4-47 针对 图 4-46 中 的 网 络 运 行 Dijkstra 算法 的 结 
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图 4-48 图 4-46 网 络 中 节点 4 的 路 由 表 
距离 矢量 路 由 


距离 矢量 算法 是 另 一 种 用 于 互联 网 中 的 主要 路 由 算法 。 链 路 状态 算法 是 一 种 使 用 全 局 信息 的 半 集 
中 式 算法 ， 而 距离 失 量 算法 则 是 一 种 利用 局 部 信息 的 异步 、 分 布 式 算法 。 它 仅 使 用 从 直接 连接 的 邻居 
交换 的 信息 。 分布 式 的 Bellman-Ford 算法 用 于 异步 地 计算 最 小 成 本 路 径 。 也 就 是 说 ， 与 链 路 状态 路 由 
不 同 ， 它 不 要 求 所 有 的 路 由 器 交换 链 路 状态 信息 并 且 在 同一 时 间 计 算 路 由 表 。 每 台 路 由 器 在 收 到 来 自 
邻居 的 新 路 由 信息 时 便 会 重新 计算 路 由 。 在 重新 计算 后 ， 新 的 路 由 信息 将 会 发 送 给 它 的 邻居 。 

图 4-49 显示 了 距离 矢量 路 由 算法 的 伪 代 码 . 一 井 始 ， 每 台 路 由 器 知道 到 它 直 连 邻 居 的 路 径 成 本 ， 
正如 在 Dijkstra 算法 中 一 样 。 然后 每 台 路 由 器 异步 地 运行 如 图 4-48 所 示 的 算法 。 当 一 台 路 由 顺 有 新 的 
路 由 信息 ( 如 到 目的 地 的 新 的 最 低 成 本 ) 时 ， 它 就 将 路 由 信息 发 送 到 直接 相连 的 邻居 。 当 路 由 器 收 到 
来 月 邻居 的 路 由 信息 时 ， 如 果 有 必要 它 就 更 新 其 路 由 表 。 路 由 信息 可 能 包含 对 路 由 融 来 讲 是 新 的 到 目 
的 地 的 成 本 。 在 这 种 情况 下 ， 就 创建 一 条 新 的 路 由 表 项 ， 到 目的 地 的 成 本 可 以 将 到 邻居 的 成 本 加 上 从 
邻居 到 日 的 地 的 成 本 求 得 (后 一 成 本 来 自 路 由 信息 )。 如 果 到 目的 地 的 路 由 成 本 已 经 存在 于 路 由 表 中 ， 
那么 路 由 需 将 检验 是 否 新 的 成 本 会 导致 出 现 一 条 新 的 最 小 成 本 路 径 。 也 就 是 说 ， 如 果 到 邻居 的 成 本 加 
上 从 邻居 到 目的 地 的 成 本 之 和 低 于 路 由 表 中 记录 的 成 本 ， 那 么 就 用 新 的 成 本 更 新 路 由 表 项 ， 而 邻居 就 
成 为 到 达 目 的 地 的 新 的 下 一 跳 





While (1) { 
If node x received route update message from neighbor y { 
For each (Dest, Distance) pair in y's report { 
If (Dest is new) { /* Dest not in routing table */ 
Add a new entry for destination Dest 
rt(Dest).distance = Distance+lc {x,y) 
rt(Dest).NextHop = 了 
} 
else if ((Distance+lc(x,y))-rt(Dest).distance)l 
/* y reports a& ‘shorter distance to Dest */ 
rt(Dest).distance = Distance+lc(x,y) 
rt(Dest).NextHop = yy 
} 
Send update messages to all neighbors if route changes 


Also send update messages to all neighbors periodically 


} 








图 4-49 距离 矢量 路 由 算法 

让 :我 们 再 次 以 图 4-46 作为 一 个 例子 ， 并 利用 这 个 例子 来 说 明 节 点 4 如何 计 算 其 基于 距离 矢量 算法 
的 路 由 表 。 由 于 距离 矢量 算法 异步 地 运行 ， 所 以 当 每 台 路 由 器 上 的 路 由 表 蜡 步 地 更 改 时 就 很 难 给 出 一 
张 有 关 整 个 网 络 的 清晰 图 。 因此， 在 我 们 的 演示 中 ， 假 设 算法 同步 地 运行 在 每 台 路 由 器 上 。 也 就 是 说 ， 
我 们 假设 每 台 路 由 器 与 它 的 邻居 同时 交换 新 的 路 由 信息 。 交换 路 由 信息 后 ， 每 台 路 由 天 同 时 计算 新 的 
路 由 表 。 重复 上述 过 程 ， 直 至 每 台 路 由 右 的 路 由 表 收 全 到 一 个 稳定 的 状态 (我 们 检查 每 从 路 由 带 的 最 
终 路 由 表 是 否 与 Dijkstra 算法 计算 出来 的 相同 )。 

最 初 ， 节 点 4 只 知道 到 其 邻居 的 成 本 ， 如 图 4-50 所 示 。 然后， 节点 4 将 有 关 路 由 表 的 内 容 通知 它 的 邻 
居 。 同样 ， 节 点 8B 和 CC 也 向 节点 4 发送 它们 的 最 新 路 由 表 信息 。 例如， 节点 B 告 诉 节点 4 它 到 节点 C 和 DD 
的 成 本 分 别 是 2 和 1。 基 于 这 些 信息 ， 节 点 4 为 节点 DD 创建 一 条 新 的 成 本 为 5 (4+1) 的 路 由 表 项 。 同样， 


互 恬 网 放 太 尾 189 





节点 C 也 会 告诉 节点 4 它 到 节点 8、D 和 的 成 本 分 别 是 2、3 和 1。 有 了 这 些 信息 ， 节 点 4 殉 新 其 到 B 和 D 
的 成 本 为 3 (1 +2)、4 (1+3)。 既然 节点 巨 对 节点 4 来 讲 是 新 的 ， 敢 么 节点 4 也 为 节点 如 创建 一 条 成 本 
为 2 (1+1) 的 路 由 表 项 。 此 时 ， 所 有 节点 都 更 新 了 自己 的 路 由 表 ， 它 必须 至 次 告知 它们 的 邻居 有 关 新 
的 路 由 表 信 息 (请 注意 ， 节 点 C 同时 知道 其 到 节点 D 的 最 小 成 本 ， 如 图 4-51 所 示 )。 当 节点 4 收 到 来 自 
节点 B 和 CC 的 新 路 由 信息 时 ， 最 后 需要 更 新 的 就 是 到 节点 D 的 最 小 成 本 ， 节 点 C 告诉 节点 4 其 新 的 成 本 


是 2 而 不 是 3， 因 此 ， 从 节点 4 到 节点 必 的 新 的 最 小 成 本 为 3， 如 果 不 再 有 新 的 成 本 更 新 ， 那 么 每 个 六 点 


得 到 的 最 终 路 由 表 如 网 4-52 所 示 。 读 者 应 注意 到 ， 这 与 由 Dijkstra 算法 计算 出 的 结果 完全 相同 。 






















































































图 4-50 图 4-46 中 节点 的 初始 路 由 表 















































图 4-51 图 4-46 中 节点 中 的 路 由 表 (直到 第 二 个 步 又 为 止 ) 
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图 4-52 ”收敛 汇聚 后 图 4-46 中 节点 4 的 路 由 表 

距离 矢量 路 由 的 环 路 问题 

从 前 面 的 例子 中 可 以 看 出 ， 距 离 和 撩 量 路 由 算法 在 路 由 表 稳定 之 前 需要 多 次 迭代 交换 路 由 。 在 非 稳 
定期 间 使 用 不 稳定 路 由 表 转 发 分 组 会 导致 问题 吗 ” 或 者 更 具体 地 说 ， 是 否 可 能 因为 节点 路 由 表 的 不 一 
致 性 而 使 得 分 组 围绕 一 个 回路 转发 ? 不幸 的 是 ,答案 是 肯定 的 。 特 别 是 ， 有 一 个 有 趣 的 称 为 “好 消息 
传播 快 而 坏 消息 传播 慢 ” 的 现象 。 也 就 是 说 ， 路 由 融会 很 快 地 学 习 到 更 好 的 最 小 成 本 路 径 ， 但 认识 到 
县 有 很 大 成 本 的 路 径 却 非常 缓慢 。 

让 我 们 利用 图 4-53 中 的 网 络 作为 一 个 例子 ， 解释 好 消息 如 何 传 得 快 . 最 初 , 4 和 ( 之 间 的 链 路 的 
成 本 为 7。 如 果 成 本 变 为 1， 节 点 4 和 节点 C 就 会 通知 它们 的 邻居 。 利 用 一 条 路 由 更 新 消息 ， 节 点 B、 
D 和 都 知道 它们 到 4 的 最 小 成 本 分 别 改 为 3、4、2。 随 着 男 一 轮 路 由 更 新 消息 的 发 送 ， 所 有 的 路 由 表 
将 收敛 ,节点 DD 在 第 二 轮 后 知道 它 到 4 的 最 小 成 本 是 3。 显 然 ， 一 条 链 路 成 本 急剧 下 降 的 好 消息 会 很 
快 传送 给 网 络 中 的 所 有 节点 。 





图 4-53 ”在 距离 矢量 算法 中 好 消息 迅速 传输 
六 一 方面 ， 让 我 们 考虑 图 4-54 中 的 链 路 成 本 变化 以 便 解 释 为 什么 坏 消息 会 传输 得 慢 。 当 A4 和 C 之 
问 的 链 路 出 现 故障 ( 即 成 本 变 得 无 穷 大 ) 时 ， 除 了 节点 4 和 C 之 外 的 其 他 节点 可 能 很 快 就 学 习 到 。 当 
链 路 出 现 故 障 时 ， 革 点 C 通知 它 的 邻 届 ， 它 到 节点 4 的 成 本 就 变 成 无 穷 大 了 。 然而， 根据 路 由 更 新 的 
到 达 时 间 ， 和 节点 可 能 会 立即 通知 节点 C， 它 到 节点 4 的 费用 为 2 (节点 C 也 可 能 收 到 来 自 节点 B 和 D 
的 信息 ， 它 们 到 4 的 最 小 成 本 分 别 为 3 和 4)。 因 此， 节点 C 使 用 成 本 3 更 新 路 由 表 中 节点 4 的 表 项 并 
上 竺 新 的 下 一 跳 为 天 ， 正 如 我 们 将 要 看 到 的 ， 这 种 更 新 是 错误 的 ， 因 为 在 C 和 之 问 会 形成 路 由 坏 路 
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也 就 是 说 ， 节 点 C 认为 应 该 经 过 来 转发 目的 地 为 4 的 分 组 ， 而 节点 无 也 认为 这 些 分 组 应 该 转发 到 节 
点 C。 然 后 分 组 将 在 节点 C 各 之 间 永 远 往返 下 去 。 问 题 是 ， 节 点 C 和 节点 不 会 在 很 敌 的 时 间 内 学 
习 旬 正确 的 路 由 。 让 我 们 继续 讨论 我 们 的 例子 看 看 所 有 节点 何 时 才能 学 习 到 坏 消息 ， 当 节点 C 更 新 其 
路 由 表 后 ， 就 向 邻居 发 送 路 由 更 新 消息 。 节 点 如 、D 和 将 其 最 小 成 本 分 别 更 新 为 5、3、4。 经 过 节点 
将 这 个 新 的 更 新 消息 发 送 到 C 后， 节点 C 将 其 到 4 的 新 成 本 更 新 为 5， 此 过 程 重复 直到 凶 点 B、C、 
D 和 EE 都 了 解 到 ， 它 们 到 4 的 最 小 成 本 路 径 都 是 通过 B 而 不 是 C。 因 为 4 和 B 之 间 的 链 路 成 本 相当 大 ， 
所 以 路 由 表 收 敛 之 前 它 将 经 过 25 次 迭代 路 由 更 新 。 如 果 4 和 中 之 间 没 有 链 路 ， 那 么 将 重复 步 又， 直至 
到 节点 4 的 成 本 如 此 巨大 ， 以 至 于 节点 BB、C、D 和 万 认识 到 到 4 的 成 本 是 无 穷 大 的 。 因 此 ， 这 种 坏 消 
息 传播 慢 的 原理 又 称 为 “计数 到 无 穷 大 ”的 问题 





图 4-54 ”在 距离 矢量 算法 中 坏 消息 缓慢 地 传输 

在 实践 中 已 采用 多 个 部 分 的 解决 方案 以 处 理 回路 问题 。 从 前 面 的 例子 中 ,我 们 可 以 观察 到 回路 问 
题 的 发 生 ， 是 因为 节点 C 不 知道 从 节点 到 节点 4 的 最 小 成 本 路 径 通 过 它 本 身 。 因 此 ， 最 简单 的 解决 
方案 称 为 水 平分 割 ， 就 是 禁止 节点 户 告 诉 节点 C 其 到 节点 4 的 最 小 成 本 ,在 一 般 情况 下 ， 路 由 融 不 应 
该 告诉 其 邻居 刚 从 它们 身上 学 到 的 最 小 成 本 路 由 ,例如 ， 由 于 节点 从 节点 C 学 习 到 其 到 节点 4 的 最 
小 成 本 路 径 ， 那 么 节点 就 不 应 该 在 发 送 给 节点 C 的 消息 中 包括 它 到 节点 4 的 最 小 成 本 路 径 。 在 一 个 
更 强大 的 ， 称 为 毒性 北 转 的 方法 中 ， 节 点 已 应 该 告诉 节点 C 有 关 它 到 节点 4 的 最 小 成 本 是 无 穷 大 的 
不 伴 的 是 ， 这 两 种 解决 方案 ， 仅 解决 了 涉及 两 个 节点 的 回路 问题 。 对 于 更 大 的 路 由 回路 ， 就 需要 一 种 
更 加 复杂 的 机 制 ， 例 如 ， 在 路 由 更 新 消息 中 添加 下 一 号 信息 来 解决 。 另 一 种 被 某 些 商业 路 由 器 采用 的 
解决 方案 是 使 用 抑制 定时 器 。 在 这 种 方法 中 ， 路 由 器 将 保持 其 最 小 成 本 路 径 信息 一 段 时 间 ， 时 间 长 度 


等 于 路 由 更 新 之 前 抑制 定时 天 的 值 。 例 如 ， 继 续 前 面 的 例子 ， 当 节点 巨 从 节点 C 接收 到 路 由 更 新 并 且 

知道 到 节点 4 的 最 小 成 本 变 成 无 穷 大 时 ， 节 点 既 不 应 该 更 新 其 路 由 表 ， 也 不 应 该 向 节点 C 发 送 新 的 

路 由 更 新 直到 抑制 定时 器 过 期 为 止 。 这 将 阻止 节点 C 从 所 有 其 他 节点 接收 4 节点 的 最 小 成 本 路 径 信息 ， 

并 给 节点 4 和 节点 CC 一段 时 间 ， 以 便 让 所 有 其 他 节点 知道 节点 4 和 节点 C 之 间 的 链 路 故障 。 
层次 化 路 由 


在 互联 网 上 的 路 由 器 的 数量 非常 巨大 因此， 为 了 可 扩展 性 ， 没 有 将 路 由 咒 连 成 一 个 平面 网 络 。 
否则 ， 无 论 是 链 路 状态 算法 ， 还 是 距离 矢量 算法 都 不 能 扩展 为 包括 成 百 上 干 乃 至 数 万 台 路 由 右 的 网 络 
如 果 将 互联 网 上 的 所 有 路 由 器 连接 成 一 个 平面 网 络 ， 想 象 一 下 路 由 表 项 的 尺寸 有 多 大 。 还 有 另外 一 个 
我 们 喜欢 将 路 由 器 分 割 成 组 的 原因 是 : 行政 自主 权 。 例 如 ， 有 许多 互联 网 服务 提供 商 (ISP) ， 每 个 ISP 
都 有 其 自己 的 路 由 融和 骨干 网 。 自 然 ， 每 个 ISP 都 想 要 完全 控制 路 由 器 和 骨干 网 带宽 ， 以 便 它 可 禁止 
来 白 从 其 他 互联 网 服务 供应 商 的 流量 通过 其 骨干 网 因此， 所 联网 路 由 器 组 织 成 两 个 层次 。 在 低层 ， 
路 由 器 分 为 行政 域 或 自治 系统 (AS)。 在 同一 个 AS 内 的 路 由 器 处 于 相同 的 行政 控制 并 且 运 行 相同 的 路 
由 协议 ， 称 为 域内 路 由 协议 或 内 部 网 关 协 议 (IGP)。 从 一 个 AS 中 选择 的 ， 称 为 边界 路 由 器 的 设备 ， 
将 具有 连接 到 其 他 AS 边界 路 由 器 的 物理 链 路 。 边 界 路 由 器 负责 将 分 组 转发 到 外 部 AS。 在 这 些 边 界 路 
由 带 之 间 运 行 的 路 由 协议 ， 就 是 指 域 间 路 由 协议 或 外 部 网 关 协 议 (ECP) ， 可 能 与 域内 路 由 协议 不 同 。 

因此 ， 互 联网 可 看 做 是 一 组 相互 连接 的 自治 系统 。 有 三 种 类 型 的 AS; 柱 AS、 多 穴 AS 和 转送 AS 
许多 用 户 通 过 园区 网 或 企业 网 访问 互联 网 ， 这 就 是 典型 的 桩 AS。 由 于 桩 AS 仅 有 一 个 边界 路 由 器 并 日 
仅 连 接 到 一 个 ISP， 所 以 没有 转送 流量 通过 桩 AS。 多 六 AS 可 能 有 多 个 边界 路 由 器 并 且 连 接 到 多 个 ISP 
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但 是 ， 多 穴 AS 也 不 允许 转送 流量 通过 ”大 多 数 ISP 需要 允许 转送 流量 并 有 许多 边界 路 由 器 连接 到 其 他 
ISP。 因此， 它们 称 为 转送 AS. 

在 4.6.2 节 和 4.6.3 节 中 ， 我 们 将 分 别 学 习 域 内 路 由 和 域 间 路 由 。 图 4-55 显示 了 一 个 简单 的 由 A、 
B 和 C 三 个 域 (AS) 组 成 的 网 络 。 在 每 个 域 中 ， 有 和 多 台 域 内 路 由 涡 ， 例如，B 域内 的 域内 路 由 需 B. 1、 
B.2、B.3 和 B.4， 这些 路 由 器 之 间 将 运行 内 部 网 关 协 议 以 便 建立 并 保持 它们 的 路 由 表 。A.3、B.1、 
B.4 和 C.1 是 边界 路 由 器， 运行 外 部 网 关 协 议 以 便 交换 路 由 信息 。A 和 C 域 为 单 臂 AS， 因 为 它们 不 允 
许 转送 流量 ， 而 B 域 是 一 个 转送 AS， 证 我们 来 解释 域内 路 由 和 域 问 路 由 如 何 用 来 从 A 域 中 的 主机 向 C 
域 中 的 目的 地 发 送 分 组 。 首先， 根据 域内 路 申 的 结果 ， 所 有 源 和 月 A 域 和 发 向 C 域 的 分 组 者 需要 发 送 到 
A 的 边界 路 由 上 A.3 [路 由 此 A.3 根据 域 问 路 由 的 结果 将 这 些 分 组 转发 给 B. 1， 路 由 器 B. 1 根据 域 
间 路 由 知道 将 这 些 分 组 转发 给 B.4， 但 根据 域内 路 由 知道 实际 到 B.4 的 路 径 (也 就 是 说 ,在 B.1 和 
B.4 之 问 路 由 是 根据 域内 路 由 发 现 的 )。 最 后 ， 路 由 带 B. 4 根据 域 问 路 由 的 结果 将 这 些 分 组 转发 给 C 域 
的 边界 路 由 器 C. 1 然后 路 由 顺 C.1 根据 域内 路 由 的 结 扩 将 这 些 分 组 转发 给 适当 的 路 由 咒 

域 问 路 由 器 (外 部 网 关 ) 








域内 路 由 器 (内 部 网 关 ) 
图 4-55 ” 域 间 AS 和 域内 AS 的 路 由 
最 后 ， 让 我 们 重新 审视 互联 网 路 由 的 可 扩展 性 问题 。 如 果 在 图 4-55 中 的 所 有 路 由 器 都 被 看 做 一 个 
平面 网 络 ， 那 么 10 人 台 路 由 震中 的 每 台 路 由 器 都 震 要 知道 在 其 他 网 络 中 的 另外 9 台 路 由 器 的 路 由 信息 。 
然而 ， 使 用 两 个 等 级 的 层次 化 组 织 ， 每 台 路 由 需 只 需 与 两 台 或 三 台 路 由 器 通信 。 首 先 汇总 一 个 域 的 路 
由 信息 并 在 边界 路 由 顺 〈 或 外 部 网 关 ) 之 间 交 换 ， 然后 将 汇总 信息 传播 到 所 有 的 内 部 路 由 器 。 通 过 限 
制 震 要 通信 和 交换 路 由 信息 的 路 由 需 数 量 来 取得 可 扩展 性 


4.6.2 域内 路 由 

AS 是 由 多 个 物理 网 络 通过 路 由 器 连接 起 来 的 。 在 这 些 网 络 之 问 提 供 连 接 是 路 由 器 的 任务 。 前 面 曾 
经 讲 过 ， 在 一 个 AS 中 的 路 由 器 处 在 相同 的 行政 控制 之 下 。 因 此 ，AS 的 网 络 管理 员 能 够 控制 所 有 的 路 
由 器 ， 并 决定 如 何 配置 这 些 路 由 器 ,在 这 些 路 由 器 上 和 运行 什么 路 由 协议 ， 以 及 如 何 设置 链 路 成 本 。 假 
定 同样 的 配置 和 路 由 协议 ， 路 由 协议 发 现 的 最 优 路 径 即 最 小 成 本 路 径 ， 能够 反映 管理 员 考 虑 的 路 由 质 
量 。 例 如 ， 如 果 根 据 延 述 设 置 链 路 成 本 ， 那 么 管理 员 将 首选 具有 更 短 的 延迟 。 通 常 ， 链 路 成 本 是 按照 
AS 内 的 资源 共享 效率 设置 的 

称 为 域内 路 由 协议 或 内 部 网 关 协 议 〈ICP) 的 路 申 协议 ， 用 于 维持 每 台 路 由 器 的 路 由 表 ， 以 便 取 
得 AS 中 的 所 有 路 由 器 之 间 的 连通 性 : 在 实际 中 ， 常 用 的 两 种 域内 路 由 协议 分 别 是 路 由 信息 协议 
(RIP) 和 开放 最 短路 径 优先 (OSPF)。 我 们 从 以 下 几 个 方面 学 习 这 两 个 协议 : 使 用 什么 样 的 路 径 选择 
算法 、 它 如 何 运 作 、 可 扩展 性 和 稳定 性 的 考虑 ， 分 组 格式 和 开源 实现 。 

RIP 

RIP 协议 是 使 用 最 广泛 的 域内 路 由 协议 ， 它 最 初 是 为 施乐 PARC 通用 协议 设计 的 ， 用 于 施乐 网 络 
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系统 (XNS) 持 构 。 它 的 广泛 使 用 是 由 于 1982 年 将 其 (routed 守护 进程 》 包 含 到 广 受 欢迎 的 伯克利 软 
件 分 发 (BSD) 的 UNIX 版 本 中 。 第 一 个 RIP 版 本 (RIPvl 的 ) 定义 在 RFC 1058 中 ，RIPv2 的 最 新 更 新 
定义 在 RFC 2453 中 
RIP 是 一 个 典型 的 距离 矢量 路 由 协议。 这 是 一 个 非常 简单 的 路 由 协议 ， 用 于 小 型 网 络 。RIP 使 用 的 
链 路 成 本 度量 是 跳 数 ， 即 所 有 链 路 的 成 本 都 为 1。 此外，RIP 限制 路 径 的 最 大 成 本 为 15， 即 具有 成 本 为 
16 的 路 径 表 示 不 可 达 。 因 此 ， 只 适合 直径 小 于 15 跳 的 小 型 网 络 。RIP 协议 使 用 两 种 类 型 的 消息 : 请 求 
和 响应 。 响 应 消息 也 称 为 RIP 通告 。 这些 消息 使 用 UDP 端口 52 发 送 。 因 为 距离 矢量 算法 用 于 找到 最 
小 成 本 的 路 径 ， 只 要 有 一 条 链 路 的 成 本 发 生变 化 ， 相 邻 路 由 带 就 将 发 送 RIP 通告 给 它们 的 邻居 ， 每 个 
通告 最 多 可 以 包含 25 条 路 由 表 项 ， 即 距离 矢量 。 每 个 路 由 表 项 都 包含 一 个 目的 网 络 地 址 、 下 一 跳 ， 以 
及 到 目的 网 络 的 距离 。RIP 支持 多 个 地 址 艇 。 也 就 是 说 ,目的 网 络 地 址 使 用 簇 字段 和 目标 地 址 字段 来 
指定 ,在 RIP 中 ， 路 由 器 定期 地 向 邻居 发 送 RIP 通告 ， 默 认 时 间 为 30 秒 。 此 外 ， 每 个 路 由 表 项 关联 两 
个 定时 器 ， 第 一 个 是 路 由 无 效 定 时 器 ， 称 为 超时 。 如 果 超 时 定时 器 到 期 之 前 没有 收 到 路 由 旧 新 ， 那 么 
这 条 路 由 表 项 便 标 记 成 无 效 (过 时 ) 表 项 。 该 定时 带 的 默认 值 是 180 秒 。 一 旦 将 一 条 表 项 标记 为 无 效 ， 
使 开始 删除 过 程 ， 设 置 第 二 个 定时 器 ， 又 称 为 垃圾 收集 定时 器 ， 为 120 秒 ， 路 由 的 成 本 也 设置 成 16 
(无 穷 大 )。， 当 应 圾 收集 定时 融 过 期 时 ， 路 由 使 从 路 由 表 中 删除 。 
RIP 采用 多 种 机 制 解决 距 离 失 量 路 由 的 稳定 性 问题 。 首 先 ， 将 路 径 成 本 限制 为 15， 以 便 能 够 迅速 
地 确定 链 路 故障 ， 还 采用 针对 回路 问题 的 三 个 部 分 解决 方案 ， 即 水 平分 各、 毒性 逆转 、 稳 定 (抑制 ) 
定时 器 。 如 上 所 述 ， 水 平分 割 能 够 抑制 反 向 路 由 上 的 更 新 。 毒 性 首 转 显 式 地 向 邻居 发 送 更 新 ， 但 是 对 
于 从 邻居 学 习 到 的 路 由 ， 毒 性 逆转 将 它们 的 路 由 度量 在 更 新 中 设置 为 无 穷 大 。 稳 定 定时 器 避免 太 快 地 
发 送 路 由 更 新 。 
RIP 分 组 格式 
RIP 的 第 二 个 版 本 比 第 一 个 版 本 具有 更 好 的 可 扩展 性 。 例 如 ，RIPv2 支持 CITDR， 人 允许 任意 长 度 前 
缀 的 路 由 聚合 。RIPv2 的 分 组 格式 如 图 4-56 所 示 。 每 个 分 组 填充 了 路 由 表 项 。 每 个 路 由 表 项 包括 地 址 
(协议 ) 复 、 目 的 地 址 、 子 网 掩 码 、 下 一 跳 和 距离 等 信息 。 
0 8 16 ?4 3 
命令 。 | 版 本 必须 为 零 
网 1 的 饼 网 1 的 路 由 标签 
网 1 的 地 址 
网 1 的 子 网 掩 码 
网 1 的 下 一 跳 
到 网 1 的 距离 
网 2 的 做 网 2 的 路 由 标签 
网 2 的 地 址 
网 2 的 子 网 掩 码 
到 网 2 的 下 一 跳 
到 网 2 的 距离 



























































图 4-56 ”RIPv2 的 分 组 格式 
RIP 实例 
让 我 们 来 看 一 个 RIP 路 由 表 的 例子 。 图 4-57 所 示 的 路 由 表 是 一 个 大 学 院 系 的 边界 路 由 器 ( 仪 显示 
了 部 分 路 由 表 ) 。 该 路 由 器 有 多 个 端口 ， 其 中 之 一 连接 到 AS 边界 网 关 140. 123. 1.250; 其 余 的 接口 连 
接 到 本 地 王子 网 上 。VLAN 将 整个 院 系 分 割 成 多 个 VLAN。 支持 CIDR， 因 此 目的 网 络 地 址 关联 了 一 个 
子 网 掩 人 码 的 长 度 。 大 部 分 路 由 从 RIP 通告 (标志 R) 中 学 习 。 直 接连 接 的 子 网 具有 者 成 本 并 通过 手动 
蛇 置 〈 标 志 C)。 路 由 表 中 也 显示 了 每 个 路 由 表 项 的 更 新 定时 器 。 
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目的 地 网 关 距离 / 跳 | 更 新 定 | 标志 | 接口 
时 器 

350008 140.123.1250 | 120/1 | 00.0028 | R |vianl 
127.0.0.0/8 直接 连接 | c_ |viano 
136.142.0.0/16 140.123.1.250 | 120/1 00:00:17 | R |Vlanl 
150.144.0.0/16 140.123.1.250 | 1201 00:00:08 | R |Vlanl 
140.123.230.0/24 直接 连接 C | 
140 123 240.024 | 140.123.1.250 120/4 00:00:22 | R |vianl 
140.123.241.0/24 | 140.123.1.250 120/3 00:00:22 | R |Vianl l 
140.123.242.0/24 | 140.123.1.250 120/1 00:00:22 | R |Vilanl 
192.152.102.0/24 | 140.123.1.250 120/ 00:01:04 | R | vianl 
0.0.0.0/0 140.123.1.250 120/3 00:00:08 | R |vVlanl 

















图 4-57 来 月 es.ccu edu.tw 的 RIP 路 由 表 


开源 实现 4.9: RIP 

概述 

路 由 协议 的 大 多 数 开 源 实现 ， 如 routed 和 gated， 运 行 在 用 户 空间 。 作 为 应 用 层 的 用 户 进程 实现 ， 
路 由 协议 可 以 通过 TCP 或 UDP 发 送 和 接收 消息 (参见 图 4-58)。 自从 1996 年 以 来 ，Zebra 项 目 
(http: /Awww. zebra. org) ， 一 种 在 GNU 通用 公共 许可 证 下 自由 发 布 的 路 由 软件 ， 已 经 成 为 在 路 由 协议 
中 开源 实现 的 主要 参与 者 之 一 











路 由 管理 器 | 
(Zebra.routed,eated,*…) 
eT 处 理 特定 的 协议 分 组 
用 户 空间 < 
内 核 空 间 








路 由 表 


来 自 网 卡 的 分 组 


图 4-58 作为 用 户 进程 实现 的 路 由 协议 




















Zebra 

Zebra 的 目标 是 提供 具有 全 功能 路 由 协议 的 可 靠 路 由 服务 器 。 它 支持 多 种 常用 的 路 由 协议 ， 如 
RIPv1 、RIPv2、OSPFv2、BGP -4 (参见 表 4-7) 。Zebra 软件 的 模块 化 设计 允许 它 支持 多 种 路 由 协议 ， 
即 Zebra 为 每 个 协议 都 有 一 个 进程 。 模 块 化 也 使 得 Zebra 灵活 和 可 靠 。 每 个 路 由 协议 可 以 独立 进行 升 
级 ， 一 个 路 由 协议 的 故障 不 会 影响 整个 系统 。Zebra 另 一 个 先进 的 功能 是 它 采 用 多 线程 技术 。Zebra 的 
这 些 特点 使 它 成 为 一 个 项 级 质量 的 路 由 引擎 软件 。Zebra 的 当前 版 本 是 2005 年 发 布 的 测试 0.95A 
Zebra 支 持 的 平台 包括 Linux 操作 系统 、FreeBSD、NetBSD 和 OpenBSD。2003 年 ， 从 GNU Zebra 分 离 出 一 
个 新 的 项 目 ， 称 为 Quagga (http: /Awww. quagga. net) ， 它 旨 在 建立 一 个 比 起 Zebra 更 具 包 容 性 的 社团 。 

表 4-7 Zebra 支持 的 RFC 


守护 进程 









守护 进程 功 






能 功 能 








ripd 2453 | 管理 RIPvl ，v2 协议 ospf6d 2740 | 管理 OSPFv3 协议 
ripngd 2080 | 管理 RIPng 协议 | bgpd 1771 | 管理 BGP -4 和 BCP -4+ 协议 














ospfd 2328 管理 OSPFv2 堆 议 
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框图 

下 面 ， 我 们 将 使 用 Zebra 作为 路 由 协议 开源 实现 的 例子 ， 研 究 RIP、OSPF 和 BGP 在 Zebra 中 的 实 
现 。 在 我 们 查看 每 个 路 由 协议 在 Zebra 中 的 实现 之 前 ， 先 讨论 Zebra 的 一 般 软 件 架 构 。 图 4-59 显示 了 
Zebra 的 架构 ， 路 由 守护 进程 与 Zebra 守护 进程 通信 ， 反 过 来 又 能 通过 各 种 不 同 的 API (如 netlink 和 
rtnetlink) 与 内 核 进行 通信 


Y 3 ¥ 























| RIPd | om | | BGPd | Ey 

Em ‘ t ‘ 品 

Cr] 于 
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重 籽 

旋 记 

| ioctl | sysctl | netlink | proc fs | rnetink | ky 
| 


























| 由 表 内 内 入 


图 4-59 Zebra 的 架构 
路 由 守护 进程 和 Zebra 守护 进程 之 间 的 相互 作用 按照 客户 机 /服务 器 模型 进行 ， 如 图 4-60 所 示 。 在 
同一 台 机 器 上 可 以 运行 多 个 路 由 协议 。 在 这 种 情况 下 ， 每 个 路 由 守护 进程 (进程 ) 都 有 自己 的 路 由 
表 ， 但 它们 需要 与 Zebra 守护 进程 通信 以 便 改 变 内 核 的 路 由 表 。 


| 











zclient_init () ] 


安装 回调 函数 
1 





| 构造 zebra 服 务 器 套 接 字 















zclient connect ] 


1 


























Ee 
坝 
已 
: 
回调 函数 | 





图 4-60 ”Zebra 的 客户 机 /服务 器 模型 


数据 结构 
Zebra 的 全 局 路 由 表 入 口 在 数据 结构 vrf Vector 中 描述 。vrf Vector 由 一 组 动态 路 由 表 和 一 组 


静态 路 由 配置 构成 ， 如 下 所 示 
struct vrf { 
u int32 t idr /* Identifier (routing table 
vector index). */ 
char *name; /* Routing table name. */ 
char *desc; /* Description. */ 
u_char fib Ld; yy* FIB identifier. */ 
struct route table *table[AFI MAX] [SAFI MAX]; 
/* Routing table. */ 
struct route table *stable[AFI MAX] [SAFI MAX]; 
/* Static route configuration. *;/ 


} 

每 个 route table 由 路 由 表 项 树 构 成 。 每 个 路 由 表 项 由 结构 route node 来 描述 。 在 route_ 
node 结构 中 ， 两 个 重要 变量 是 prefix ( struct prefixp; ) 和 info (void * info;)， 它 们 分 
别 描述 这 个 路 由 表 项 的 实际 前 缓和 路 由 信息 。 每 个 路 由 进程 将 定义 自己 的 这 些 结构 实例 。 例 如 ，RIP 
进程 将 变量 info 描述 成 struct rip info 的 一 个 指针 。 
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算法 实现 
路 由 进程 通过 


一 组 函数 (如 vrf create()、vrf table()、vrf lookup()、route node_ 


lookup () 、route node get ()、route node delete()) 维护 在 路 由 表 中 的 路 由 表 和 路 由 节点 


例如 ， 
节点 ， 
RIP 守护 进程 
概述 
RIP 协议 作为 路 由 守护 进程 ， 
数据 结构 


称 为 ripd， 


数据 结构 定义 在 ripd/ripd.h 中 ， 包 括 RIP 分 组 格式 的 rip packet 


RIP 进程 调用 route node get (rip - >table, (struct prefix * ) &p) 获得 前 组 pp 的 路 由 


结构 ，rte 结构 在 RIP 分 


组 中 用 于 路 由 表 表 项 ， 结 构 rip info 用 于 RIP 路 由 信息 (由 route_node 指向 用 来 描述 一 个 节点 在 


路 由 表 中 的 详细 信息 ) 
跳 、 路 由 度量 ( 距离)， 


struct zte 
{ 
\ 


在 RIP 分 组 中 的 rte 包 
如 下 所 示 


u int1l6 t family; 
让 Anti6e t tagy 
packet. */ 

struct in addr prefix; 


RIP2 
/* Prefix of Tip route. 
struct in addr mask; /* Netmask of rip route. */ 
struct in addr nexthop; /* Next hop of rip route. 
Ww nt32 t metries yw Metrie value ef rip route,; 
二 
正如 前 面 所 述 
所 示 ， 
#define RIP METRIC INFINITY 16 


图 4-61 显示 了 ripd 的 调用 图 。 


包括 四 个 重要 的 组 成 部 分 


/* Address family of this route. 
/* Route Tag which inecluded in 


网 络 前 缓 、 


子 网 掩 码 、 下 一 


ry 


2 


Wh 
中 


，RIP 的 最 大 度量 是 16。 这 个 最 大 值 的 定义 ， 也 可 以 在 ripd/ripd.h 中 找到 ， 如 下 





[ 初始 化 调度 








t 1 


a 












RIP 核 


Tip_version rip_network 







rip_default metric rip_neighbor 
rip_timers rip_passive_interface 
rip_route ip_rip_version 






ip_rip_authentication 
rip_split_horizon 


np _distance 


图 4-61 











ripd 的 调用 图 









RIP 对 策 
rip_peer timeout 
rip_peer_update 
rip_peer display 






Bellman-Ford 算法 由 定义 在 ripd/ripd.c 中 的 rip rte process () 函数 实现 。 当 接收 到 一 个 


RIP 分 组 时 ， 用 RIP 分 组 中 的 rte (路 由 表 表 项 ) 作为 参数 调用 rip rte process ()。 


前 级， 调用 route node get () 以 便 从 路 由 表 中 获取 节点 信息 
针 获 得 了 RIP 路 由 信 ， 就 执行 Bellman-Ford 算法 。 
人 信息， 那么 前 组 Dest 一 定 是 新 的 ， 通 评 


& (rip, inf6), 


过 调用 rip info_new () 创 建 一 个 新 的 rip info 和 


根据 rte 的 
(route node)。 一旦 通过 “info” 指 
例如 ， 如 果 这 个 节点 没有 RIP 路 由 


告 构 然 
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， 将 rte 的 下 一 跳 和 距离 (度量) 复制 到 新 的 表 项 中 。 最 后 ,调用 rip zebra ipv4 add() 将 新 
er | 路 由 表 中 。 否 则 ， 如 果 rte 给 前 级 (Dest) 报告 一 个 短 的 距离 ， 那 么 rip rte_ 
process () 中 的 代码 对 路 由 表 中 该 前 组 的 路 由 节点 执行 路 由 更 新 。 

练习 

跟踪 route_node get () 并 解释 如 何 根 据 前 缀 找到 route_node。 

OSPF 

开放 最 短路 径 优 先 (OSPF) 是 男 一 种 常用 的 域内 路 由 协议 ， 是 RIP 协议 之 后 占据 主导 地 位 的 域内 
路 由 协议 。OSPF 的 第 2 版 和 基于 IPv6 的 扩展 版 本 分 别 定义 在 RFC 328 和 RFC 5340 中 。 与 RIP 不 同 ， 
OSPF 是 一 种 链 路 状态 路 由 协议 。 链 路 状态 信息 会 湛 泛 到 域内 的 所 有 路 由 还 上 。 每 对 路 由 带 利 用 Dijk- 
stra 算法 计算 最 短路 径 树 时 会 将 自己 作为 树 根 ， 然 后 根据 这 棵 树 构建 路 由 表 。 

EN 首先 ， 对 于 负载 平衡 ，OSPF 支持 相同 成 本 
的 多 路 径路 由 。 其 次 ， 为 了 支持 CIDR 路 由 ， 每 条 路 由 都 由 一 个 前 级 长 度 来 描述 。 青 次 ,组 播 路 由 可 
以 根据 单 播 路 由 的 结果 。 组 播 路 由 协议 、 组 播 OSPF ( MOSPF) Wan 另 
外 ， 为 了 稳定 性 和 安全 性 ， 一 条 路 巾 信息 附带 了 8 字 节 的 口令 密码 用 于 认证 。 最后， 为 了 可 扩展 性 ， 
OSPF 有 两 层 结构 ， 因 此 可 以 将 一 个 OSPF 自治 系统 进 一 . 步 划 分 为 多 个 区 域 。 一 个 区 域 就 是 一 组 相 邻 的 
网 络 和 主机 ,一 个 区 域 的 拓扑 结构 对 外 界 是 不 可 见 的 。 因 此 自治 系统 内 的 路 由 分 成 两 层 : 域内 路 由 和 
域 间 路 由 。 

层次 化 的 OSPF 网 络 

图 4-62 显示 了 一 个 OSPF 网 络 的 层次 化 结构 。 从 图 4-62 中 我 们 可 以 看 到 ， 路 由 融 分 为 四 种 : 
边界 路 由 器 和 两 种 内 部 路 由 器 。 一 个 区 域 由 多 台 内 部 路 由 器 和 一 台 或 多 台 区 域 边界 路 由 器 组 成 。 内 痢 
a eter pe the ee 
器 同时 参加 区 域 间 和 区 域内 路 由 。 它 负责 汇总 AS 内 部 和 外 部 的 其 他 区 域 的 路 由 信息 ， 并 在 整个 区 域内 
广播 路 由 信息 。AS 边界 路 由 器 参与 区 域内 路 由 (在 区 域 间 层次 ) 和 区 域 间 路 由 。 它 运行 OSPF 获得 AS 
中 的 路 由 信息 并 运行 一 些 外 部 路 由 协议 ， 如 BGP， 学 习 AS 外 的 路 由 信息 。 外 部 路 由 信息 不 加 修改 地 在 
整个 AS 内 通告 。 骨 干 路 由 器 是 联系 AS 边界 路 由 器 和 区 域 边界 路 由 融 的 中 介 路 由 天 。 


2 肯 干 路 由 器 





























AS 边界 路 由 器 





_。 区域 边界 
路 由 器 





内 部 
由 器 
ee 
区 域 A 区 域 B 区 域 C 
图 4-62 两 层 OSPF 层次 化 结构 
OSPF 例子 
re 图 4-63 中 的 AS 
由 5 台 内 部 路 由 器 (RTI1、RT2、RT8、RT9 和 RT12)、4 台 区 域 边界 路 由 器 (RT3、RT4、RTI10、 
RT11) 、 1 台 骨 干 路 由 器 (RT6) 和 2 台 AS 边界 路 由 咒 RT7) 组 成 ， 配置 到 三 个 区 域 。 区 域 2 
tnd 如 果 一 个 区 域 只 有 一 个 出 口 点 ， 那 么 它 就 可 以 称 为 一 个 桩 . 





口 例子 来 自 RFC 2328。 
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将 一 个 区 域 配置 成 桩 的 目的 是 为 了 避免 将 外 部 路 由 信息 广播 到 桩 区 域 。AS 由 11 个 子 网 (NI ~ N11) 
组 成 并 与 4 个 外 部 网 络 ( N12 ~ N15) 相连 接 。 注 意 ， 在 图 4-63 中 的 链 路 成 本 是 有 向 的 。 也 就 是 说 ， 


一 条 链 路 的 两 端点 可 能 会 给 链 路 分 配 不 同 的 成 本 


RT3 的 成 本 分 别 是 8 和 6 
















比如 ，RT3 和 RT6 之 间 的 链 路 RT3 一 RT6 和 RT6 一 



























| Rn N12 
| 1 RT4 
| 1 8 8 
内 pe 拓 信 内 部 路 由 器 
| 3 ww 
一 起 8 区 域 边 界 
N2 部 6 路 肯 和 
AS 边界 
N4 
| we es 路 由 器 
NL 0 
| 由 
Stub _RT9 ”| TG NI15 
] 和 
RTI1 | 
1 2 
Sa | 
‘N8 
HI 1 | iar 
ns 4 lie 
” 2] No 
区 域 2 区 域 3 
图 4-63 ”OSPF 网 络 例子 


让 我 们 首先 看 看 区 域 1 的 内 部 路 由 。 通 过 洪 泛 交换 路 由 信息 后 ， 区 域 边界 路 由 器 RT3 和 RT4 通过 
使 用 Dijkstra 算法 计算 最 短路 径 ， 然 后 将 汇总 后 的 路 由 信息 通过 区 域 间 路 由 通告 到 AS 骨干 。 表 4-8 显 
示 了 由 RT3 和 RT4 通告 的 路 由 。 对 于 内 部 路 由 器 RTI 和 RT2， 域 内 网 络 的 路 由 表 以 相同 的 方式 构建 。 


表 4-9 显示 了 RTI 的 区 域内 部 路 由 表 。 
表 4-8 通过 RT3 和 RT4 通告 给 骨干 的 路 由 
由 RT4 通告 的 成 本 | 网 


由 RT3 通告 的 成 本 由 RT3 通告 的 成 本 | 由 RT4 通告 的 成 本 











表 4-9 RTI 的 区 域内 路 由 表 

下 一 由 | 网 络 成 ”本 
直接 | 
RT2 




















然后 区 域 边 界 路 由 器 在 AS 骨干 上 上 与 其 他 路 由 器 交换 区 域内 路 由 汇总 。 每 个 区 域 边 界 路 由 器 将 会 
听 到 所 有 来 自 其 他 区 域 边 界 路 由 天 的 汇总 。 根据 这 些 路 由 汇总 ， 每 个 区 域 边 界 〈 路 由 器 ) 还 是 根据 
Dijkstra 算法 形成 一 张 到 其 区 域外 所 有 网 络 的 距离 图 然后 区 域 边界 路 由 器 汇总 ， 而 且 在 每 个 区 域 洪 泛 
粮 个 AS 路 由 。 表 4-10 显示 区 域 间 路 由 经 过 RT3 和 RT4 通告 进入 区 域 1 中 。 注 意 , 将 区 域 2 配置 为 一 
个 单 臂 网络， 因此 将 N9、N10、N11 的 路 由 信息 压缩 到 一 个 人 口 表 项 。 通 常 ， 一 个 网 络 如 果 仅 有 一 个 
出 加 点 就 将 其 配置 为 一 个 桩 区 域 。 外 部 AS 路 由 信息 不 能 泛 洪 进入 或 通过 整个 桩 区 域 。 
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表 4-10 RT3 和 RT4 将 路 由 通告 到 区 域 1 














目的 地 由 RT3 通告 的 成 本 | 由 RT4 通告 的 成 本 目的 地 ”| 由 RT3 通告 的 成 本 | 由 RT4 通告 的 成 本 
la、 Ib 20 | 2 N9 ~ N11 29 36 
M6 本 15 RTS 14 8 
N7 20 19 RD 20 a 
N8 18 18 




















除了 区 域 间 路 由 信息 外 ， 区 域 边 界 路 由 器 RT3 和 RT4 也 将 收 到 来 自 AS 边界 路 由 器 RT5 和 RT7 的 
AS 外 部 路 由 信息 。 有 两 种 类 型 的 外 部 路 由 成 本 。 类 型 1 外 部 成 本 与 区 域内 路 由 成 本 兼容 ， 到 外 部 网 络 
的 成 本 是 内 部 成 本 和 外 部 成 本 的 总 和 。 类 型 2 外 部 成 本 比 内 部 成 本 大 一 个 数量 级 ， 因 此 到 外 部 网 络 的 
成 本 由 外 部 成 本 单独 确定 。 当 RT3 或 RT4 将 从 RTS 和 RT7 学 习 到 的 成 本 广播 给 区 域 1 时， 区 域 1 的 内 
部 路 由 器 成 本 (如 RT1) 将 根据 通告 的 外 部 成 本 类 型 构建 到 外 部 网 络 的 路 由 。 最 后 ， 表 4-11 显示 了 带 
有 区 域 间 、 区 域内 和 外 部 路 由 的 部 分 RT4 路 由 表 。 
表 4-11 RT4 的 路 由 表 





























目的 地 路 径 类 型 成 本 下 一 跳 目的 地 路 径 类 型 成 本 下 一 跳 
NI 区 域内 4 RTI N8 区 域 间 25 RTS 
N2 区 域内 4 RT2 N9 ~ N11 区 域 间 36 RTS 
N3 区 域内 1 直接 | NI2 | 类 型 1 外 部 16 RTS 
N4 区 域内 3 RT3 N13 | 类 型 1 外 部 16 RTS 
No 区 域 问 15 RTS N14 | 类 型 1 外 部 16 RTS 
区 域 间 | “类 型 1 外 部 























OSPF 分 组 格式 

OSPF 消息 有 五 种 类 型 ， 所 有 类 型 都 以 如 图 4- 64 所 示 的 相同 头 部 。 类 型 字段 显示 了 消息 的 类 型 ， 
表 4-12 显示 了 五 种 OSPF 消息 类 型 。 类 型 字段 后 面 是 IP 地 址 和 源 路 由 器 的 区 域 标识 符 。 除 了 认证 数据 
外 ， 全 部 消息 都 被 一 个 16 位 的 校 验 和 保护 ， 这 样 就 可 以 应 用 各 种 类 型 的 认证 机 制 。 认 证 类 型 指示 使 用 


的 机 制 。 




















0 8 16 24 31 
版 本 | 类 型 | 分 组 长 
路 由 器 ID 
区 域 ID 
校 验 和 四 | 认证 类 型 
认证 
认证 





图 4-64 OSPF 的 报头 格式 
表 4-12 五 种 类 型 的 OSPF 信息 
类 型 说 明 类 型 说 明 类 型 说 明 
东 好 - 链 路 状态 请 求 
数据 库 描述 链 路 状态 更 新 





















除了 hello (问候 ) 消息 外 ， 其 他 类 型 的 OSPF 消息 用 于 请 求 、 发 送 和 回复 链 路 状态 信息 。 一 个 
OSPF 信息 可 能 包含 一 个 或 多 个 链 路 状态 通告 (LSA) 消息 ， 每 个 LSA 用 来 描述 链 路 或 路 由 器 的 成 本 信 


[~ 


200 | 项 了 





息 ， 这 里 也 有 五 种 类 型 的 LSA 消息 ， 如 表 4-13 所 示 ， 而 且 所 有 LSA 类 型 共享 相同 的 头 部 ， 如 图 4-65 
所 示 。 每 种 类 型 的 LSA 由 不 同 的 路 由 器 使 用 以 描述 不 同 的 路 由 信息 。 比 如 ， 源 于 AS 边界 路 由 吾 的 AS 
外 部 LSA 用 于 描述 到 达 在 其 他 上 自治 系统 中 的 目的 路 由 

表 4-13 五 种 类 型 的 LSA 












































IS 类 型 1S 名字 来 ” 自 洪 泛 范围 说 明 
1 | 路 由 器 LSA | 所 有 路 由 器 。 “|” 区域 描述 了 路 由 器 与 区 域 接口 的 一 组 状态 
2 | 网 络 LSA | 指定 路 由 器 区 域 。 | “包含 了 连接 到 网 络 的 路 由 器 列表 
汇总 LSA (IE 网 络 ) 民 域 边 界 路 由 器 “| 相关 区 域 | 描述 区 域 间 网 络 的 路 由 
4 汇总 1SA (ASBR) 区 域 边 界 路 由 器 “| 相关 区 域 | ”描述 到 AS 边界 路 由 器 的 路 由 
5 | AS 外 部 1SA AS 边界 路 由 器 AS 描述 到 其 他 AS 的 路 出 

0 8 16 24 31 
LS 的 老化 时 间 选项 LS 类 型 
链 路 状态 1D 
通告 路 由 器 
LS 序列 
LS 校 验 和 | 长 度 








图 4-65 LSA 头 部 格式 


4. 6. 3 域 间 路 由 

域 问 路 由 的 任务 就 是 在 互联 网 的 自治 系统 之 间 实 现 连通 性 ，。 人 尽管 域内 路 由 是 在 同一 管理 控制 下 的 
AS 中 发 生 的 , 但 由 于 大 量 的 AS 和 AS 间 的 复杂 关系 ， 域 间 路 由 很 难 实现 域 间 路 由 最 明显 的 特征 是 ， 
可 达 性 比 资源 利用 率 更 重要 。 由 于 每 个 AS 可 能 运行 不 同 的 路 由 协议 并 且 根 据 不 同 的 标准 分 配 链 路 成 
本 ， 在 源 和 目的 地 对 之 间 查 找 最 小 成 本 路 径 可 能 毫 无 意义 。 比如， 在 运行 RIP 的 AS 中 成 本 15 可 能 是 
大 的 成 本 ， 但 在 另 一 个 运行 OSPF 的 AS 中 它 就 属于 相当 小 的 成 本 .因此 ,不同 AS 的 链 路 成 本 可 能 不 
兼容 ， 因 此 不 可 相 加 〈 正 是 出 于 同样 的 原因 ，OSPF 有 了 两 种 类 型 的 外 部 成 本 ， 类 型 1 和 类 型 2) 。 另 一 
方面 ， 在 域 问 路 由 中 找到 一 条 到 达 目 的 网 络 的 无 环 路 路 径 更 加 重要 ，AS 间 复 杂 的 关系 使 得 这 项 查找 任 
务 非 同 寻常 。 例 如 ， 考 虑 一 所 大 学 ,， 它 拥 有 一 个 AS 号 ， 运 行 BGP 连接 到 AS 号 分 别 为 X 和 YY 的 两 个 
网 络 服务 提供 商 〈(ISP) 。 假 设 ， 这 所 大 学 从 AS 号 为 X 的 ISP 购买 了 更 多 的 带宽 。 而 且 ， 该 大 学 当然 不 
希望 从 AS X 到 AS YY (或 者 从 ASY 到 ASX) 的 转移 流量 通过 它 的 域 。 因 此 ， 它 可 以 建立 一 个 策略 ; 
“将 所 有 流量 路 由 到 AS X， 除 非 它 产 生 故 障 ; 和 否则， 将 流量 路 由 到 AS Y”， 并且“ 不 承载 从 ASX 到 
AS TY 的 流量 〈 或 从 ASY 到 AS Xx 的 流量 )。 这 种 路 由 称 之 为 策略 路 由 ， 这 里 策略 允许 路 由 域 的 管理 
员 设 置 如 何 将 分 组 路 由 到 目的 地 的 规则 。 这 种 策略 可 以 指定 首选 的 AS 或 不 转送 AS。 策 略 路 由 也 解 
决 安全 和 信任 问题 。 比 如 ， 我 们 可 能 有 一 个 策略 声明 表示 发 到 AS 的 流量 不 能 路 由 经 过 某 些 域 ， 或 者 
他 有 前 缀 疡 的 分 组 仅 路 由 经 过 AS X， 如 果 前 缀 疡 是 从 AS X 可 达 的 。 总 之 ， 在 域 间 路 由 中 ， 可 扩展 性 
和 稳定 性 比 最 优 更 重要 


开源 实现 4. 10: OSPF 

概述 

OSPF 源 代码 中 最 有 趣 的 部 分 就 是 如 图 4-45 所 示 的 Dijkstra 算法 实现 。Dijkstra 算法 是 在 ospf spf 
_calculate() (在 ospf_spf.c 中 定义 ) 中 实现 的 ， 当 预定 的 定时 器 到 期 (由 ospf spf calculate 
_schedule () 预定 的 ) 时 ， 由 ospf spf calculate timer() 调 用 以 便 计算 每 个 区 域 的 最 短路 径 

数据 结构 

相关 的 数据 结构 包括 定义 在 ospf spf.h 和 table.h 中 的 vertex、route table 和 
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route_node。 跨 越 一 个 区 域 的 最 短路 径 树 的 根 由 变量 area - > spf 指向 ， 并 且 树 中 的 每 个 节点 由 
vertex 结构 来 描述 : 
struct vertex 
{ 
u_char flags; 
u char type; /* router vertex or network vertex */ 
steuet in addr: La; /* network prefix *y 
struct lsa header *1lsa; 
dH int32 t digstance, 
list child; /* list of child nodes */ 
list nexthop; /* next hop information for routing 
table */ 
有 
算法 实现 
当 接 收 到 各 种 类 型 的 LSA (网 络 LSA、 路 由 器 LSA、 汇 总 LSA) 或 者 更 改 了 虚拟 链 路 、 区 域 边界 
路 由 器 的 状态 时 ， 就 调度 运行 ospf spf calculate ()。 图 4-66 显示 Zebra 的 ospfd 调用 图 。 





| 初始 化 调度 | 











上 { 


OSPF 核心 接口 
ip_ospf interface 
ip_ospft neighbor 
ospf router id 网 络 
network area 
show ip_ospf_ cmd | 


Route map 
route_map_update | OSPF 洪 泛 | | rie | 人 Ee 
route_map_ event a AS 外 部 路 由 计算 


。 ， ospf spf calculate schedule() FF ， ospf spf_caleulate timer () 


-~ ospf spf calculate() 


















































图 4-66 ”OSPF 的 Zebra 实现 
图 4-45 中 的 while 循环 由 ospf spf calculate () 中 的 for 循 环 实现 。 不 包括 在 了 ( 即 图 4-45 中 
的 V-T) 中 的 节点 (候选 者 ) 列表 首先 通过 ospf spf next () 函数 得 到 。 具有 最 小 成 本 的 节点 是 从 
候选 者 列表 的 头 部 中 获得 。 调 用 ospf vertex adqd Parent () 建立 下 一 跳 信 息 〈 即 图 4-45 中 的 p 
(V) =w) ， 然 后 由 ospf spf register() 将 节点 添加 到 SPF 树 上 。 更 新 节点 成 本 的 操作 (C(v) =MIN 


(C(V),C(w) +c(w,v))) 也 是 在 ospf spf next() 中 通过 下 面 的 语句 执行 : 
w->distance = v->distance + ntohs (1->m[0] .metric); 


练习 
追踪 Zebra 的 源 代 码 ， 并 解释 如 何 维护 每 个 区 域 的 最 短路 径 树 。 


性 能 问题 : 路 由 守护 进程 的 计算 开销 

图 4- 67 比较 了 RIP 和 OSPF 中 路 由 守护 进程 核心 函数 的 执行 时 间 ， 分 别 对 应 于 
rip rte process() 和 ospf spf calculate()。RIP 即使 是 在 具有 1500 台 路 由 器 的 网 络 环境 下 也 
能 够 很 好 地 扩展 。 然 而 ， 在 一 个 具有 250 台 路 由 器 的 网 络 中 ，OSPF 的 执行 时 间 超 过 10 ms; 而 在 一 个 


= 
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具有 1500 台 路 由 器 的 网 络 中 ， 这 个 时 间 会 超过 100 ms。， 路 由 算法 的 计算 复杂 性 是 执行 时 间 中 的 关键 因 
素 ，RIP 采用 了 Bellman-Ford 算法 ， 这 个 算法 的 时 间 复 杂 性 比 OSPF 采用 的 Dijkstra 算法 的 时 间 复 杂 性 小 。 


100000 








10000 二 





1000 
rip rte process () 


100 口 ospf spf calculate () 
10 二 
ta 


100 250 $500 1500 





时 间 (ns) 


























路 由 器 数量 
图 4-67 ”RIP 和 OSPF 的 执行 时 间 

BGP 

边界 网 关 协 议 版 本 4 (BCP -4) 是 目前 域 间 路 由 的 事实 标准 。BCP -4 最 新 RFC 是 RFC 4271。 因 
为 容纳 许多 企业 和 园区 AS 的 大 型 ISP 骨干 网 上 很 可 能 有 不 止 一 台 边 界 路 由 器 与 其 他 AS 相连 接 ， 所 以 
有 两 种 类 型 的 BCP: 内 部 BGP (IBGP) 和 外 部 BGP (EBGP)。 为 了 在 同一 个 AS 中 的 两 台 BGP 路 由 器 
之 间 的 通信 ， 建 立 IJBCGP 会 话 ， 而 为 了 在 不 同 的 AS 中 的 两 台 BGP 路 由 器 之 间 的 通信 ， 建 立 EBGP 
IBCP 的 目的 是 ， 如 果 有 很 多 路 由 器 在 同一 个 AS 中 运行 BGP 时 ， 应 确保 路 由 器 之 间 路 由 信息 的 一 致 。 
在 AS 中 至 少 一 台 路 由 顺 选 为 AS 的 代表 (代理 ) ， 称 为 BGP 发 言 者 。BGP 发 言 者 使 用 EBCP 会 话 与 在 
其 他 AS 中 的 BGP 发 言 者 交换 路 由 信息 。 而 且 ， 由 于 稳定 性 和 可 靠 性 对 域内 路 由 很 重要 ， 所 以 BCP 在 
端口 179 上 运行 TCP， 可 以 使 用 认证 进一步 保证 TCP 连接 的 安全 。 对 于 同一 个 AS 中 的 路 由 器 ， 根 据 
TCP 和 底层 IBGP 会 话 构建 远 辑 全 连接 的 网 络 。 而且， 在 内 部 BGP 路 由 器 之 间 ， 将 其 中 一 个 指定 为 
BGP 发 言 者 ,代表 AS 发 言 )。 最 后 ，BGP 也 支持 CIDR。 

路 径 矢 量 路 由 

在 互联 网 内 有 大 量 的 AS 路 由 需 使 得 距离 失 量 算法 比 链 路 状态 算法 更 适用 于 BCP。 然 而 ， 由 于 可 达 
性 和 无 回路 操作 比 路 由 最 优化 更 重要 ，BGP 采用 路 径 失 量 算 法 一 一 距离 矢量 算法 的 变 体 ， 在 两 个 网 络 
之 间 查 找 路 由 路 径 。 路 径 矢量 算法 也 仅 与 其 邻居 交换 路 由 信息 ,但 是 为 了 防止 回路 ， 当 交换 一 条 路 由 
表 项 时 ， 就 通告 完整 路 径 信息 。 由 于 每 个 AS 都 有 一 个 唯一 的 AS 号 (一 个 16 位 的 标识 符 ) ， 一 个 完整 
的 路 径 保留 路 径 已 经 经 过 的 AS 号 的 有 序 序列 。 如 果 当 前 的 AS 号 在 路 径 中 找到 ， 那 么 就 检测 到 一 个 环 
路 。 而 且 ， 由 于 在 不 同 AS 中 成 本 定义 的 不 一 致 性 ， 路 由 交换 信息 不 包括 成 本 信息 。 因 此 ， 路 由 路 径 的 
选择 大 多 根据 可 管理 的 优先 级 和 路 径 上 的 AS 号 。 

BCP 分 组 有 四 种 类 型 ， 包 括 OPEN 、KEEPALIVE 、UPDATE 和 NOTIFICATION。 在 两 台 BCP 路 由 器 
之 间 建 立 一 条 TCP 连接 后 ， 就 将 一 个 OPEN 信息 发 送 到 通信 的 对 方 。 之 后 ， 就 定期 发 送 KEEPALIVE 信 
息 以 便 确 保 对 方 保持 激活 。 路 由 信息 通过 UPDATE 信息 进行 交换 。 与 RIP 协议 不 同 ， 由 于 表 的 尺寸 过 
于 庞大 ，BGP 不 会 定期 更 新 全 部 的 路 由 表 。UPDATE 信息 包括 发 送 者 想 要 撤销 (withdraw) 的 一 组 路 由 
和 到 一 组 目的 地 网 路 的 路 径 (path) 信息 。UPDATE 消息 的 格式 如 图 4-68 所 示 。 将 路 径 属 性 应 用 到 在 
目的 网 络 中 列 出 的 所 有 目的 地 〈 称 为 网 络 层 可 达 信 息 ，NLRI) 。 路 径 属性 携带 的 信息 可 能 包括 路 径 信 
县 (来自 IGP、EGP 或 不 完整 ) 的 来 源 、 到 目的 地 路 径 上 的 AS 列表 、 到 目的 地 的 下 一 跳 、 用 于 多 个 
AS 出 口 点 (MULTI_ EXIT_ DISC，MED) 的 鉴别 符号 、 用 来 表示 AS 内 路 由 器 优先 的 本 地 优先 
(LOCATL_ PREF)、 江 总 路 由 ， 以 及 汇总 路 由 的 AS 标识 符 。 最 后 ， 当 遇 到 错误 时 就 向 对 方 发 送 NOTI- 
FICATION 消息 。 

每 个 BGP 路 由 器 保留 所 有 到 达 目 的 地 的 可 行路 径 ， 但 仅 将 “最 佳 ”路 径 通告 给 邻居 。 选 择 “ 最 好 ” 
的 路 由 取决 于 AS 策略 。 然 而 ， 在 一 般 情况 下 ， 优 先 选择 较 大 的 LOCAL_ PREF 、 较 短 的 路 径 、 较 低 的 
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起 源 编码 号 (lower orgin code) (对 于 ECP， 优 先 选择 1GP)、 较 低 的 MED、 更 靠近 的 1GP 邻居 ， 以 及 有 具 


16 








撤销 目的 地 (可 变 ) 





路 径 长 度 








路 径 属性 (可 变 ) 








目的 网 络 (可 变 ) 








图 4-68 BGP UPDATE 消息 的 分 组 格式 


有 更 低 人 P 地 址 的 BGP 路 由 器 。 为 目的 地 确定 了 “最 佳 ” 路 由 后 2 ， 然 后 BCP 发 言 者 (speaker) 就 将 


每 个 目的 地 的 最 高 优先 级 经 过 EBGP 通告 给 邻居 BGP 发 言 者 。BGP 发 言 者 也 会 将 其 学 到 的 路 由 信息 通 


过 IBGP 传播 给 BGP 路 由 器 〈 非 BCP 发 言 者 ) 。 


BGP 例子 
最 后 ， 


让 我 们 来 看 看 BGP 路 由 表 的 一 个 例子 。 表 4-14 取 自 一 所 大 学 的 边界 路 由 器 的 部 分 BGP 表 
(一 台 互 联网 骨干 路 由 咒 的 完整 BGP 表 具 有 超过 30 万 条 路 由 项 目 。 当 前 BGP 表 的 大 小 参见 htp: // 


bgp. potaroo. ne ) 。 大 学 的 AS 号 为 17712。 第 一 个 路 由 表 项 指示 BCP 路 由 器 已 经 接收 到 UPDATE 消息 ， 


目的 网 络 为 61. 13.0.0/16, 分 别 来 自 三 个 邻居 139. 175. 56. 165 、140. 123. 231. 103 、140. 123. 231. 100 。 
到 61. 13. 0. 07X16 的 最 佳 AS 路 径 是 通过 140. 123. 231. 100 (可 能 只 是 因为 它 是 最 短路 径 ) 。 起 源 编 码 号 


指示 路 由 器 的 邻居 140. 123. 231. 100 通过 IGP 协议 学 习 到 AS PATH 。 






































表 4-14 一 个 BGP 路 由 表 的 例子 
网 络 下 一 跳 LOCAL_ PREF | 加 权 | 最 佳 路 人 径 源 
61. 13. 0. 0716 139. 175. 56. 165 0 N |4780, 9739 IGP 
140. 123. 231. 103 0 N |9918, 4780, 9739 IGP 
140. 123. 231. 100 0 Y | 9739 IGP 
61. 251. 128.0/20 | 139. 175. 56. 165 0 Y | 478, 9277, 17577 IGP 
140. 123. 231. 103 0 N | 9918, 4780, 9277, 17577 IGP 
211.73. 128. 0/19 | 210.241. 222. 62 0 Y | 9%674 IGP 
218. 32. 0.0/17 139. 175. 56. 165 0 N | 4780, 9919 IGP 
140. 123. 231. 103 0 N | 9918. 4780.9919 IGP 
140. 123. 231. 106 0 Y |9919 IGP 
218. 32. 128. 0/17 | 139. 175. 56. 165 0 N | 4780, 9919 IGP 
140. 123. 231. 103 0 N | 9918.4780.9919 1GP 
140. 123. 231. 106 0 WY 9919 IGP 





开源 实现 4. 11: BGP 


概述 


BCP 采用 距离 失 量 路 由 ， 但 为 了 避免 循环 ， 它 的 消息 中 包括 路 由 路 径 信 息 。 














Bi 


是 路 由 成 本 优化 。 因 此 ， 在 其 实现 中 ， 我 们 将 看 到 它 如 何 根据 策略 选择 最 优 路 径 。 





@ 通常 ， 


它 可 能 是 一 组 目的 网 络 。 





它 强调 策略 路 由 而 不 
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数据 结构 

BCP 路 由 表 是 一 个 bgp table 结构 ， 其 中 包括 BGP 的 节点 (bgp_node 结构 ) (参见 bgpd/bpg_ 
table. h)。 每 个 bgp_node 具有 指向 BGP 路 由 信息 的 指针 struct bgp_info， 定义 在 bgpd/bg_ 
route.h 中 ,bgp info 由 一 个 指向 struct peer 的 指针 组 成 ， 用 来 存储 邻居 路 由 器 的 信息 ， 

算法 实现 

图 4-69 显示 了 用 来 处 理 BGP 分 组 的 bgpd 调用 图 。 当 接收 到 BGP UPDATE 分 组 时 ， 就 调用 bgp 
update () 函数 ， 使 用 路 径 属 性 attr 作为 其 参数 之 一 。bgp update() 然后 调用 lbgp process() 处 理 
有 关 路 由 信息 的 更 新 ， 依次 调用 pgp info cmp () ， 根 据 以 下 优先 级 规则 比较 两 条 路 由 的 优先 : 


bsgp_update () 四 bsgp_process () 一 bsp_info_ cmp () 


图 4-69 ”Zebra 中 bgpd 的 调用 图 

0) Null ( 空 路 由 ) 检查 : 优先 选择 非 空 路 由 。 

1 ) 加 权 检 查 : 优先 选择 较 大 的 加 权 

2) 本 地 优先 检查 : 如 果 设 置 了 本 地 优先 ， 优 先 选 择 较 大 的 本 地 优先 。 

3) 本 地 路 由 检查 : 优先 选择 静态 路 由 、 重 分 配 路 由 或 汇总 路 由 

4) AS 路 径 长 度 检 查 : 优先 选择 较 短 的 AS 路 径 长 度 。 

5) 来 源 检查 : 按照 下 列 顺序 优先 选择 学 习 到 的 路 由 : IGCP、EGP、 不 完整 

6) MED 检查 : 优先 选择 较 低 的 MED (MULTI_ EXIT_ DISC) 。 

7) 对 等 类 型 检查 : 优先 选择 EBCP 对 等 ， 然 后 选择 IBGP 对 等 ， 

8) ICP 度 量 检 查 : 优先 选择 更 近 的 IGP 

9) 成 本 社区 检查 : 优先 选择 低 成 本 

10) 最 大 的 路 径 检 查 : 没有 执行 

11) 如 果 两 条 路 径 是 外 部 的 ， 优 先 选择 首先 收 到 的 路 径 (最 老 的 一 个 ) 

12) 路 由 器 标识 符 比较 : 优先 选择 更 低 的 标识 符 。 

13) 集群 长 度 比 较 : 优先 选择 更 低 的 长 度 。 

14) 邻居 地 址 比较 : 优先 选择 较 低 的 上 地址 

练习 

请 读者 研究 目前 BCP 路 由 表 的 前 级 长 度 分 布 。 首 先 ， 浏览 http: //thyme. apnic. netl/current/ ， 你 会 
发 现 由 APNIC 路 由 器 看 到 的 BGP 路 由 表 的 分 析 ， 结 果 很 有 超 。 尤 其 是 “每 个 前 级 长 度 宣布 的 前 级 数 
量 ” 将 让 你 知道 骨干 路 由 器 路 由 项 目 数量 和 这 些 路 由 表 项 前 级 长 度 的 分 布 

1. 在 你 访问 URL 的 当天 ， 骨 干 路 由 器 有 多 少 路 由 表 项 ? 

2. 绘制 图 形 用 对 数 显示 前 组 长 度 分 布 〔 长 度 从 1 ~32) ， 因 为 宣布 的 前 组 号 码 从 0 到 数 万 不 等 。 


4.7 组 播 路 由 

到 日 前 为 止 ， 我 们 了 解 了 从 单一 源 向 单一 日 的 地 传送 ( 从 主机 到 主机 分 组 ) 的 完整 互联 网 解决 方 
案 。 然而， 许多 新 兴 的 应 用 需要 从 一 个 或 多 个 源 将 分 组 传送 到 一 组 目的 地 。 例 如 ， 视 频 会 议和 流 媒 体 、 
远程 学 习 教 育 、WWW 缓存 更 新 、 共 享 白板 ,并 且 网 络 游戏 是 流行 的 多 方 通信 应 用 程序 。 将 分 组 发 送 
到 多 个 接收 者 称 为 组 播 。 组 播 会 话 包 括 一 个 或 多 个 发 送 者 ， 通 常 在 同一 个 组 播 地 址 有 多 个 发 送 或 接收 
分 组 的 接收 者 


4.7.1 将 复杂 性 迁移 到 路 由 器 

可 扩展 性 仍然 是 实现 互联 网 组 播 服 务 的 主要 问题 。 在 考虑 可 扩展 性 的 同时 ， 我 们 首先 解决 来 自发 
送 者 、 接 收 者 、 路 由 器 等 方面 的 问题 。 发 送 考 可 能 面临 以 下 问题 : 发 送 者 如 何 将 分 组 发 送 给 一 组 接收 
者 ”发 送 者 是 否 需 要 知道 接收 者 在 哪里 以 及 他 是 谁 ? 发 送 者 是 否 能 够 控制 组 成 员 ? 多 个 发 送 者 可 以 同 
时间 一 组 接收 者 发 送 分 组 吗 ?保持 发 送 者 的 工作 尽 可 能 简单 就 可 以 使 将 一 个 分 组 发 送 到 组 播 组 的 任务 
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具有 高 度 可 扩展 性 ， 因 此 互联 网 组 播 提供 的 解决 方案 就 是 先 从 发 送 者 去 掉 组 播 负 担 而 将 它 留 给 互联 网 
路 由 器 。 但 是 ， 这 会 将 复杂 性 迁移 给 核心 网 络 、 路 由 器 ， 而 远离 边缘 主机 。 它 将 使 原来 的 核心 网 络 从 
无 状态 变 为 有 状态 ， 这 一 点 我 们 在 后 面 将 会 看 到 ， 这 会 对 基础 设施 有 重要 影响 。 因 此， 是 否 将 组 播 留 
在 IP 层 还 是 留 给 应 用 层 仍 然 是 一 个 有 争议 的 问题 。 在 本 节 结 束 时 ， 我 们 会 讨论 这 个 问题 。 

如 图 4-7 所 示 , DD 类 下 地址 空间 是 为 组 播 预 留 的 。 为 组 播 组 分 配 一 个 D 类 IP 地址。 要 癌 组 播 组 发 
送 分 组 的 发 送 者 只 需要 将 组 的 DD 类 IP 地 址 放 到 IP 头 部 的 日 的 地 字段 即 可 。 发 送 者 并 不 需要 知道 接收 
者 在 哪里 以 及 分 组 如 何 发 送 给 组 成 员 。 换 句 话 说， 发 送 者 不 负责 维护 组 成 员 名 单 ， 并 将 接收 者 的 了 PP 地 
址 放 入 JP 头 部 中 。 可 扩展 性 就 是 这 样 实 现 的 ， 因 为 从 发 送 者 的 角度 ， 发 送 组 播 分 组 就 像 发 送 一 个 单 播 
分 组 一 样 简单 。 多 个 发 送 者 可 以 同时 向 一 个 组 播 组 发 送 分 组 。 缺点 是 发 送 者 在 互联 网 层 不 能 控制 组 成 
员 (但 在 应 用 程序 却 可 以 控制 ) 。 

从 接收 者 的 角度 ， 人 们 会 问 以 下 问题 : 一 个 人 如 何 才能 加 入 组 播 组 ?人 们 如 何 才能 知道 互联 网 上 
正在 进行 的 组 播 组 ”任何 人 都 可 以 加 入 一 个 组 吗 ?一 个 接收 者 可 以 动态 地 加 入 或 离开 一 个 组 吗 ?接收 
者 能 够 知道 在 该 组 中 的 其 他 接收 者 吗 ?7 另外 ， 互 联网 解决 方案 就 是 使 接收 组 播 分 组 的 任务 就 像 接收 单 
播 分 组 一 样 简单 。 接 收 者 向 最 近 的 路 由 器 发 送 一 条 加 入 (join) 消息 表明 它 希 望 加 入 的 组 播 组 (一 个 D 
类 IP 地 址 ) 。 然 后 接收 者 就 可 以 像 接收 单 播 分 组 一 样 简单 地 接收 组 播 分 组 。 接 收 者 可 以 随时 加 入 和 离 
开 一 个 组 播 组 。 除 了 为 组 手动 配置 一 组 D 类 IP 地址 外 ,没有 特别 的 机 制 。 然 而 ， 有 些 用 于 在 互联 网 上 
通告 组 播 会 话 地 址 的 协议 和 工具 。 此 外 ，IP 层 不 提供 了 解 组 播 组 内 所 有 接收 者 的 机 制 。 将 该 工作 留 给 
应 用 层 协 议 来 完成 。 

最 后 ， 路 由 器 可 能 会 问 如 何 发 送 组 播 分 组 。 路 由 器 是 否 需要 知道 组 播 组 中 的 所 有 发 送 者 和 接收 者 ? 
因为 组 播发 送 者 和 接收 者 摆脱 组 播 的 负担 ， 所 以 路 由 器 就 要 担负 起 这 项 工作 。 组 播 路 由 器 有 两 个 任务 : 
组 成 员 管 理 和 组 播 分 组 分 发 。 首 先 ， 路 由 器 需要 知道 在 其 直接 连接 的 子 网 内 的 主机 是 否 已 加 入 一 个 组 
播 组 。 用 于 管理 组 播 组 成 员 信息 的 协议 称 为 互联 网 组 管理 协议 (ICMP) 。 其 次 ， 路 由 器 需要 知道 如 何 
将 组 播 分 组 发 给 所 有 成 员 。 有 人 可 能 会 想到 建立 许多 一 对 一 连接 发 送 组 播 分 组 。 然 而 ， 这 肯定 不 是 一 
种 有 效 的 方法 ， 因 为 这 样 互 联网 将 充满 重复 的 分 组 。 一 种 更 有 效 的 方法 是 建立 一 个 组 播 树 ， 根 在 每 个 
发 送 者 或 者 被 整个 组 所 共享 。 然 后 在 组 播 树 上 发 送 组 播 分 组 ， 只 在 树枝 上 复制 组 播 分 组 。 建 立 组 播 树 
的 任务 由 组 播 路 由 协议 (如 DVMRP、MOSPF、PIM) 来 完成 。 

现在 应 该 很 清楚 IP 层 组 播 的 解决 办 法 就 是 要 使 发 送 者 和 接收 者 尽量 简单 而 将 负担 留 给 路 由 澡 。 下 
面 ， 我 们 将 重点 放 在 路 由 器 的 任务 上 上， 具体 来 讲 ， 我 们 首先 学 习 组 成 员 管理 协议 ， 它 运行 在 主机 与 下 
子 网 指定 的 路 由 器 之 间 。 它 允许 指定 的 路 由 器 知道 是 否 至 少 有 一 台 主 机 加 入 到 一 个 特定 的 组 播 组 中 。 
其 次 ， 我 们 讨论 组 播 路 由 协议 。 组 播 路 由 协议 运行 在 支持 组 播 的 路 由 器 之 间 ， 用 于 为 每 个 组 播 组 建立 
组 播 树 。 最 后 ， 由 于 大 多 数组 播 路 由 协议 用 于 域内 组 播 ， 所 以 我 们 应 该 为 域 间 组 播 路 由 引入 一 些 新 的 
开发 设计 。 











4.7.2 组 成 员 管 理 

负责 将 组 播 分 组 发 送 到 它 直接 连接 的 趾 子 网 的 路 由 器 称 为 指定 路 由 器 。 指 定 路 由 器 需要 维护 子 网 
中 所 有 主机 的 组 成 员 人 信息， 以便 它 能 够 知道 发 往 一 个 特定 组 播 组 的 分 组 是 否 应 该 转发 到 子 网 。 互 联网 
使 用 的 组 成 员 管 理 协 议 称 为 互联 网 组 管理 协议 (ICMP) 。 

互联 网 组 管理 协议 

当前 IGMP 的 版 本 为 IGMPv3， 定 义 在 RFC 3376 中 。1CMP 允许 路 由 器 在 其 直接 连接 的 子 网 中 查询 
主机 ， 看 它们 中 是 否 已 加 入 到 一 个 特定 的 组 播 组 。 它 也 允许 一 台 主 机 对 查询 做 出 响应 报告 或 者 通知 路 
由 需 主 机 将 离开 组 播 组。 

基本 上 ， 有 三 种 IGMP 消息 类 型 : 查询 、 报 告 、 离 开 。IGMP 分 组 格式 如 图 4-70 所 示 。 查 询 消息 有 
一 个 类 型 值 为 0x11。 查 询 消 息 可 能 是 通用 查询 也 可 能 是 特定 组 查询 。 当 它 是 一 个 通用 查询 消息 时 ， 组 
播 组 的 地 址 就 用 0 来 填充 。 一 个 ICMPv3 成 员 报 告 消息 具有 类 型 值 为 0x22。 为 了 能 够 向 后 兼容 性 ， 
IGMPv1 成 员 报 告 、IGMPv2 成 员 报 告 和 IGMPv2 离开 组 消息 分 别 使 用 类 型 0x12 、0x16 和 0x17。IGMP 消 
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息 是 在 IP 分 组 中 携带 协议 标识 符 2， 并 且 发 送 到 所 有 系统 组 播 地址 和 所 有 路 由 器 组 播 地 址 等 的 特定 多 
播 地 址 
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图 4-70”1IGMP 分 组 格式 

让 我 们 简要 地 看 看 IGMP 的 运行 。 组 播 路 由 器 扮演 两 个 角色 之 一 : 查询 者 或 非 查 询 者 。 查 询 者 负 
区 维护 成 员 人 信息。 如果 在 一 个 IP 子 网 中 有 多 台 路 由 器， 那么 具有 最 小 IP 地 址 的 路 由 融 就 称 为 查询 者 ， 
其 他 路 由 融 是 非 查 询 者 。 路 由 器 通过 听取 其 他 路 由 器 发 送 的 查询 消息 来 确定 自己 的 角色 。 查 询 者 将 定 
期 发 送 通 用 查询 消息 来 征求 成 员 信息 。 将 通用 查询 消息 发 送 到 224.0.0.1 (ALL-SYSTEMS 组 播 组 ) 

至 少 有 一 个 成 员 或 者 没有 成 员 

当主 机 接收 到 一 个 通用 查询 消息 时 ， 它 会 等 待 一 个 介 于 0 与 最 大 响应 时 间 的 一 段 随机 时 间 ， 这 是 
在 通用 查询 消息 中 给 定 的 。 然后 ， 当 定时 器 过 期 时 ， 这 人 台 主 机 就 发 送 一 个 TTL =1 的 报告 消息 。 然 而 ， 
如 果 这 台 主 机 看 见 同 一 组 播 组 的 其 他 主机 发 送 的 报告 信息 ， 主 机 就 停止 定时 器 并 删除 这 个 报告 信息 
采用 随机 定时 器 是 为 了 抑制 进一步 来 自 其 他 组 成 员 的 报告 消息 ， 因 为 路 由 器 仅 关心 是 否 至 少 有 一 台 主 
机 加 入 组 播 组 。 当 主机 接收 到 一 个 特定 组 查询 消息 时 ， 如 果 主 机 是 由 查询 消息 指定 的 组 播 组 成 员 ， 那 
么 就 采取 相似 的 动作 。 

当 路 由 器 接收 到 一 个 报告 消息 时 ， 它 就 将 消息 中 报告 的 组 添加 到 其 数据 库 组 播 组 列表 中 。 它 还 将 
成 员 定时 器 设置 为 “组 成 员 时 间 间 隔 ”， 并 且 在 定时 需 过 期 之 前 如 果 没 有 收 到 报告 就 删除 成 员 表 项 
(查询 消息 是 周期 性 地 发 送 的 ， 因 此 路 由 顺 期 望 在 定时 器 过 期 前 看 见 返回 的 报告 ) 。 除 了 响应 查询 消息 
外 ， 当 主机 想 要 加 入 一 个 组 播 组 时 ， 它 可 以 立即 发 送 一 个 非 请 求 报告 。 

当 一 台 主 机 离开 一 个 组 播 组 时 ， 它 应 该 给 所 有 路 由 器 组 播 地 址 (224. 0.0.2) 发 送 一 个 离开 组 消 
息 ， 如 果 它 是 最 后 一 台 应 答 组 查询 消息 的 主机 。 当 查询 路 由 融 接 收 到 一 个 离开 消息 时 ， 对 于 每 一 个 
“最 后 成 员 查 询 时 间 间 隔 ”"， 它 给 连接 子 网 上 的 相关 组 发 送 特 定 组 查询 “最 后 成 员 查 询 计数 ”次 数 。 如 
果 在 “最 后 成 员 查 询 时 间 间 隔 ” 过 期 前 还 没有 收 到 报告 ， 那 么 这 个 路 由 器 将 假设 相关 的 组 没有 本 地 成 
员 ， 没 有 必要 将 那 一 组 的 组 播 转 发 给 所 连接 的 子 网 。 通 过 这 种 假设 ， 当 一 台 主 机 离开 这 个 组 时 ， 路 由 
融 就 不 需要 计算 有 多 少 台 主 机 是 相关 组 的 成 员 。 它 只 是 简单 地 问 :“ 还 有 主机 在 这 个 组 中 吗 ?” 

通过 对 IGMP 操作 的 概述 ,我们 可 以 看 出 ， 没 有 对 谁 能 够 加 入 组 播 组 或 者 谁 能 够 向 组 播 组 发 送 分 
组 进行 控制 。 这 里 也 没有 一 种 用 来 了 解 组 播 组 中 接收 者 的 IP 层 机 制 。IGMPv3 添加 了 对 “来 源 过 滤 ” 
的 支持 。 也 就 是 说 ， 接 收 者 可 能 请 求 仅 接收 来 自 特 定 来 源 地 址 的 分 组 。 接收 者 通过 激活 IPMulti- 
castListen (socket,interface,multicast-address,filter-mode,source-list) 国 数 加 入 到 
组 播 组 中 ， 其 中 filter-mode 既 可 以 是 INCLUDE 也 可 以 是 EXCLUDE。 如 果 这 个 filter-mode 是 
INCLUDE， 那么 接收 者 仅 希 望 接收 source-list 中 的 发 送 者 。 另 一 方面 ， 如 果 filter-mode 是 
EXCLUDE， 那 么 就 不 能 接收 来 自 source-1ist 中 的 发 送 者 。 


4.7.3 组 播 路 由 协议 

组 播 的 第 二 个 组 件 是 组 播 路 由 协议 ， 它 为 组 播 分 组 分 发 构建 组 播 树 ， 那么 组 播 树 应 该 是 什么 样 的 
呢 ? 从 发 送 者 的 角度 ， 它 应 该 是 一 个 以 发 送 者 为 根 能 够 到 达 所 有 接收 者 的 单 向 树 。 但 是 ， 如 果 有 多 个 
发 送 者 时 ,组 播 组 将 会 发 生 什么 ”在 互联 网 中 ,采用 两 种 方法 构建 组 播 树 。 它 们 的 区 别 在 于 所 有 的 发 
送 者 是 否 使 用 单个 树 发 送 分 组 ,或 者 是 否 每 个 发 送 才 都 有 一 个 特定 源 的 组 播 树 用 以 发 送 分 组 。 这 两 种 
方法 的 扩展 性 如 何 ? 第 一 种 方法 ， 组 共享 树 ， 更 具有 可 扩展 性 ， 因 为 组 播 路 由 器 只 维护 每 组 的 状态 信 
县 ， 而 第 二 种 方法 ， 基 于 源 的 方法 ， 需 要 每 个 源 每 组 的 状态 信息 。 然 而 ， 基 于 源 的 方法 放弃 了 更 短路 
径 ， 央 为 分 组 沿 着 树 来 角 历 。 构 建 基 于 源 的 树 的 组 播 路 由 协议 包括 距离 矢量 组 播 路 由 协议 (DYVMRP) 、 
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OSPF 的 组 播 扩 展 ( MOSPF) 和 协议 独立 组 播 协议 密集 模式 (PIM-DM ) 。 另 一 方面 ，PIM 稀 踊 模式 
(PIM-SM) 和 基于 核心 树 (CBT) 构建 组 共享 树 。 一 个 成 员 稀 玻 地 分 布 到 网 络 拓扑 上 的 稀 玻 组 内 ， 可 
扩展 性 似乎 是 共享 树 方法 最 好 的 ， 这 一 点 以 后 会 更 加 清楚 。 

Steiner 树 与 最 小 成 本 路 径 树 

在 我 们 详细 描述 组 播 路 由 协议 之 前 ， 让 我 们 研究 构建 组 播 树 涉及 的 两 个 问题 。 我们 已 讨论 了 最 佳 
点 到 点 路 由 。 什么 是 最 佳 组 播 路 由 ”在 文献 中 ， 将 组 播 问 题 建 模 为 一 个 图 论 问题 ， 其 中 每 条 链 路 分 配 
-个 成 本 .最 佳 组 播 路 由 包括 找到 一 个 最 小 成 本 的 组 播 树 ， 组 播 树 成 本 是 树 上 所 有 链 路 成 本 的 总 和 
当然 ， 组 播 树 必 须 以 源 为 根 并 包括 所 有 接收 者 。 最 优 组 播 树 ， 或 者 具有 最 低 总 成 本 的 树 ， 称 为 Steiner 
树 ， 不 音 的 是 ， 碍 找 Steiner 树 的 问题 已 知 是 NP 完全 问题 ， 即 使 所 有 的 链 路 具有 单位 成 本 。 上 因此 ， 大 
多 数 以 往 的 研究 人 员 都 将 重点 放 在 采用 多项式 时 间 并 产生 近似 最 优 结果 的 启发 算法 设计 上 。 而 且 ， 这 
些 启发 式 算法 经 常 能 够 保证 他 们 的 解决 方案 处 于 最 优 和 解 成 本 两 倍 之 内 。 然 而 ， 尽 管 启发 式 算 法 显示 出 
好 的 性 能 ， 但 暂时 还 没有 尝试 解决 Steiner 树 问 题 的 互联 网 组 播 路 由 协议 。 为 什么 呢 ?” 有 三 个 明显 的 原 
因 使 这 些 启 发 式 算法 不 切实 际 。 首 先 ， 大 多 数 算法 是 集中 式 的 并 需要 全 局 信息 一 一 也 就 是 说 ， 需 要 网 
络 中 所 有 链 路 和 网 络 节 点 的 信息 。 但 是 ， 集 中 式 的 解决 方案 并 不 适合 分 布 式 互联 网 环境 。 其 次 ，Stei- 
ner 树 问题 是 针对 静态 成 员 的 组 播 形 成 的 ， 源 节点 和 所 有 接收 者 是 固定 并 且 预 先知 道 的 。 互 联网 当然 并 
医 如 此 。 最 后 ， 对 于 在 线 计算 ， 大 多 数 启发 式 算 法 的 计算 复杂 性 是 不 可 接受 的 。 毕 竟 ， 最 小 化 组 播 树 
成 本 并 没有 可 扩展 性 重要 。 此外， 没有 明确 定义 的 链 路 成 本 ， 我 们 如 何 解释 组 播 树 的 成 本 以 及 它 对 最 
小 化 成 本 有 多 重要 ? 

构建 组 播 树 的 另 一 个 问题 是 组 播 路 由 协议 是 否 依 赖 于 某 些 特定 的 单 播 路 由 协议 。 不 是 解决 Steiner 
树 问 题 ， 最 新 的 互联 网 组 播 路 由 协议 是 根据 最 小 成 本 路 径 算法 来 构建 组 播 树 。 对 于 基于 源 的 树 ， 从 源 
到 每 个 目的 地 的 路 径 是 通过 单 播 路 由 找到 的 最 小 成 本 路 径 . 结合 从 源 到 每 个 接收 者 的 成 本 最 小 的 路 径 ， 
就 形成 了 一 个 以 源 作为 根 的 最 小 成 本 路 径 树 。 对 于 组 共享 树 ， 最 小 成 本 路 径 树 是 从 一 个 中 心 节点 ( 称 
为 一 个 汇聚 点 或 核心 ) 到 所 有 接收 者 形成 的 。 此外， 使 用 最 小 成 本 路 径 从 源 向 中 心 节点 发 送 分 组 。 由 
于 这 两 种 类 型 的 树 都 是 根据 最 小 成 本 路 径 构建 的 ， 所 以 单 播 路 由 的 结果 当然 能 够 加 以 利用 。 然 后 问题 
就 在 于 组 播 路 由 协议 是 否 尖 要 某 种 特定 单 播 路 由 协议 的 合作 ,或 者 它 是 否 独 立 于 底层 单 播 路 由 协议 
对 于 当前 的 互联 网 解决 方案 ，DVMRP 是 前 者 的 一 个 例子 ; 而 PIM， 顾名思义 ， 是 独立 单 播 路 由 协议 。 
下 面 ， 我 们 介绍 其 中 最 常用 的 组 播 路 由 协议 : DVMRP 和 PIM 。 


行动 原则 : 当 Steiner 树 不 同 于 最 小 成 本 路 径 树 时 

图 4-71 中 显示 了 一 个 简单 的 例子 ， 这 里 最 小 成 本 路 径 不 是 Steiner 树 。 在 这 个 例子 中 ,4 是 一 个 源 
节点 ，C 和 嘱 是 2 个 接收 器 。 从 4 到 C 的 最 小 成 本 路 径 是 从 4 到 ( 成 本 为 3 的 直接 链 路 。 从 4 到 万 的 
最 小 成 本 路 径 与 此 相同 。 因 此 ， 最 小 成 本 路 径 树 是 以 4 为 根 扩 展 到 C 和 万 的 树 ， 成 本 为 6。 然 而 ， 最 
优 解决 方案 Steiner 树 ， 是 以 4A 为 根 ， 首先 连接 到 BB， 然 后 扩展 到 C 和 中 ，Steiner 树 的 成 本 为 5， 低 于 最 
小 成 本 路 径 树 

距离 矢量 组 播 路 由 协议 

DVMRP 在 RFC 1075 中 提出 ， 是 互联 网 中 第 一 个 也 是 最 广泛 使 用 的 
组 播 路 由 协议 。DVMRP 将 RIP 作为 其 内 兽 的 单 播 路 由 协议 。 当 互联 网 
发 起 组 播 时 ，DVMRP 是 运行 在 实验 骨 十 网 〈 称 为 MBone) 的 组 播 路 由 
协议 。DVMRP 为 每 个 组 播发 送 者 构造 一 个 基于 源 的 树 。 组 播 树 通过 两 
步 构 建 。 第 一 步 ， 利 用 反 向 路 径 广播 (RPB) 向 所 有 路 由 涡 广 播 组 播 分 
组 。 然 后 利用 修剪 信息 将 RPB 树 修 前 成 反 回 路 径 组 播 树 (RPM ) 。 

反 向 路 径 广 播 Oe 

传统 上， 在 网 状 网 络 中 的 广播 是 通过 洪 泛 实现 的 ， 即 将 广播 分 组 图 471 Steiner 树 不 同 了 最 小 
转发 到 所 有 外 出 链 路 上 ， 除 了 接收 到 分 组 的 接口 外 。 然 而 ， 由 于 洪 泛 天 下 网 的 本 玫 
生路 由 器 多 次 接收 到 相同 的 分 组 .如何 才 能 避免 路 由 占 将 同一 分 组 转发 多 次 ?” RPB 是 一 个 非常 好 的 思 
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路 ， 参 见 图 4-72， 当 路 由 器 接收 到 分 组 时 ， 只 有 当 分 组 到 达 从 路 由 带 回 到 发 送 者 的 最 短 〈 最 小 成 本 ) 
路 径 上 上 的 链 路 上 时 才 会 洪 泛 〈 转 发 ) 分 组 。 否则 ， 就 直接 丢弃 分 组 。 广播 分 组 仅 保证 被 路 由 带 洪 泛 一 
次 ， 当 所 有 路 由 器 都 洪 泛 一 次 时 ， 洪 泛 过 程 就 停止 。 路 由 器 仍然 可 能 接收 到 相同 的 分 组 一 次 以 上 ， 但 
不 存在 循环 或 无 限 洪 泛 的 问题 
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图 4-72 反 向 路 径 广播 

显然 ，RPB 要 求 每 台 路 由 带 构 建 自己 的 单 播 路 由 表 。 也 就 是 说 ，DVYMRP 需要 底层 单 播 路 由 算法 。 
RPB 称 为 “ 反 向 路 径 ”"”， 因 为 尽管 最 短路 径 树 应 该 以 发 送 者 为 根 并 朝向 接收 者 ， 但 每 台 路 由 器 根据 
“反问 最 短路 径 ”( 即 从 路 由 器 到 发 送 者 ) 的 信息 决定 是 否 洪 泛 分 组 。 因 此 ， 分 组 经 过 从 接收 者 到 发 送 
者 之 间 的 最 短路 径 到 达 目 的 地 。 为 什么 不 只 使 用 转发 最 短路 径 呢 ?7 距离 矢量 算法 寻找 从 路 由 器 到 目的 
地 的 下 一 跳 。 因 此 ， 接 收 了 广播 分 组 的 路 由 器 不 知道 从 发 送 考 到 达 它 自己 的 最 短路 径 ， 但 知道 从 它 本 
身 到 发 送 者 的 最 短路 径 

反 向 路 径 组 播 

当 源 将 组 播 分 组 广播 到 所 有 路 由 需 〈 和 子 网 ) 时 ， 不 想 收 到 这 个 分 组 的 许多 路 由 器 和 子 网 不 可 避 
免 地 接收 到 了 它 。 为 了 克服 这 个 问题 ， 不 到 任何 接收 者 的 一 台 路 由 器 将 向 其 上 游 路 由 器 发 送 修剪 ， 如 
图 4-73 所 示 〈 路 由 融通 过 ICMP 知道 其 成 员 信息 ) 。 中 间 路 由 咒 为 每 个 组 播 组 维护 一 张 依 赖 的 下 游 路 
由 带 列 表 。 当 一 台中 间 路 由 需 接 收 到 一 个 修剪 消息 时 ， 它 就 进行 检查 以 验证 不 存在 的 已 经 加 入 到 多 播 
组 的 下 游 路 由 器 成 员 ， 也 就 是 说 ， 所 有 下 游 路 由 器 都 已 经 向 它 发 送 过 修剪 消息 。 如 果 是 ， 它 就 发 送 另 
一 个 修剪 消息 到 上 游 路 由 沁 。 这 样 就 不 会 将 数据 分 组 再 发 送 到 已 经 从 树 上 修剪 掉 的 路 由 器 上。 如 
图 4-74 所 示 ， 修 剪 过 的 RPB 树 就 形成 反 向 路 径 组 播 (RPM) 树 。 
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图 4-73 修剪 RPB 树 
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图 4-74 图 4-73 修 汲 过 的 RPM 树 

接 下 来 的 问题 是 ， 如 果 在 修剪 树 上 的 一 台 主 机 想 要 加 入 多 播 组 将 会 发 生 什么 。 有 丙种 可 能 的 解决 
方案 ， 首 先 ， 修 剪 信息 将 包含 修剪 寿命 ， 它 指定 一 条 修剪 过 的 树枝 保持 被 修剪 折 多 长 时 间 ， 因此 ， 修 
前 寿命 过 期 后 ， 修 剪 掉 的 树枝 将 重新 添加 到 树 中 。 换 名 话说 ， 当 修剪 寿命 过 期 时 ， 多 播 分 组 将 周期 性 
地 洪 泛 。 另 一 方面 ， 路 由 器 也 可 以 显 式 地 发 送 一 个 稼 接 消息 给 它 的 上 游 路 由 器 强制 将 修剪 掉 的 树枝 重 
新 添加 到 组 播 树 中 

DVMRP 有 儿 个 缺点 ， 例 如 ， 首 先 ， 儿 乎 没有 组 播 分 组 需要 洪 泛 到 所 有 路 由 需 上 。 这 使 得 它 仅 对 县 
有 密集 成 员 的 组 能 够 很 好 地 工作 。 其 次， 修剪 消息 的 寿命 特点 也 需要 路 由 需 定 期 刷新 其 修剪 状态 。 最 
后 ， 由 于 DVMRP 构建 基于 源 的 树 ， 所 以 每 台 路 由 天 需要 维护 每 个 源 、 每 个 组 的 状态 信息 。 对 于 具有 
两 个 发 送 者 的 组 播 组 ， 中 间 路 由 器 需要 为 该 组 维护 两 个 状态 ， 因 为 不 同 发 送 者 的 组 播 树 也 不 同 。 也 就 
是 说 ， 如 何 发 送 分 组 取决 于 发 送 者 是 谁 ， 因 此 ，DVMRP 需要 在 每 台 路 由 器 上 存储 大 量 的 状态 信息 。 总 
之 ， 尽管 DYMRP 不 能 很 好 地 扩展 ,但 因为 DVMRP 的 简洁 性 ， 它 仍然 是 最 广泛 使 用 的 协议 

协议 独立 组 播 协议 

正如 我 们 已 经 了 解 到 的 ， 对 于 稀 踊 分 布 成 员 的 组 播 组 ，DVRMP 不 能 很 好 地 扩展 。 原 因 有 两 个 : 首 
先 ， 面 向 源 的 树 的 构建 ，RPB 树 修 剪 成 RPM 树 的 方式 是 不 可 扩展 的 ; 其 次 ,构建 一 个 基于 源 的 组 播 树 
是 不 可 扩展 的 ， 因 为 它 需 要 太 多 的 状态 信息 。 随 着 路 径 变 得 更 长 以 及 组 数 和 每 组 发 送 者 数量 的 增长 ， 
状态 开销 也 迅速 增长 。 对 于 稀 芯 分 布 的 组 成 员 ， 带 有 面向 接收 者 树 的 共享 树 构建 将 更 具 可 扩展 性 ， 因 
此 为 互联 网 建议 了 一 种 新 的 组 播 路 由 协议 ， 称 为 协议 独立 组 播 协议 〈 或 协议 无 关 组 播 ，PIM ) 。 通 过 使 
用 黄种 模式 ，PIM 显 式 地 支持 两 种 构造 组 播 树 的 方法 。PIM 密集 模式 (PIM-DM) 以 一 种 类 似 于 
DVMRP 的 方式 构造 一 种 基于 源 的 组 播 树 ， 适 用 于 密集 分 布 成 员 的 组 播 组 。 另 一 方面 ，PIM 黎 玖 模式 
(PIM-SM) 为 每 个 组 播 组 仅 构造 一 个 组 共享 树 ， 因 此 ， 适 用 于 成 员 广 泛 分 散 的 组 。 既 然 PIM-DM 非常 
类 似 于 DVMRP， 我 们 仅 在 本 节 讨 论 PIM-SM。PIM-SM 的 一 个 最 新 版 本 协议 在 RFC 4601 中 描述 。 我 们 
还 注意 到 ， 组 播 的 可 扩展 性 问题 来 和 大 量 的 组 播 组 数 ， 既 不 能 由 DYMRP 也 不 能 由 RIM 来 解决 。 

PIM-SM 遵守 如 下 的 设计 原则 ， 如 果 一 台 路 由 器 不 导 回 任何 接收 者 ， 那 么 它 就 不 应 该 参与 到 组 播 会 
话 的 多 播 路 由 中 。 因 此 , 在 PIM-SM 中 ， 树 是 按照 接收 者 驱动 的 方式 构建 的 。 也 就 是 说 ， 导 向 接收 器 
所 在 子 网 的 一 台 路 由 器 需要 显 式 地 发 送 加 入 消息 。 共 享 树 的 中 心 节点 称 为 一 个 汇聚 点 (CRP) 。 每 个 组 
播 组 RP 唯一 地 由 散 列 责 数 确定 ， 这 一 点 我 们 将 在 稍 后 讨论 。 共 享 树 因 此 称 为 基于 RP 的 树 (RPT) 
路 由 器 负责 转发 组 播 分 组 ， 发 送 加 入 消息 给 称 为 指定 路 由 器 (RP) 的 子 网 。 路 由 表 称 为 组 播 路 由 信息 
库 (MRIB)，DR 用 它 来 确定 发 送 任何 加 入 /裁剪 消息 的 下 一 跳 邻居 。MRIB 既 可 以 直接 取 自 单 播 路 由 
表 也 可 以 由 一 个 单独 的 路 由 协议 导出 :让 我 们 看 看 以 面向 接收 器 的 方式 如 何 构建 RPT PIM-SM 的 三 个 
阶段 ， 

第 一 阶段 : RP 树 

在 第 一 阶段 ， 如 图 4-75 所 示 构 建 一 个 RP 树 ， 我 们 分 别 从 两 个 方面 描述 构建 过 程 : 接收 者 和 发 送 


好- 
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者 。 当 接收 者 想 加 入 组 播 组 时 ， 它 使 用 IGMP 向 DR 发 送 一 si 县 = 一 旦 接收 到 加 入 消息 ，DR 幅 
向 RP 发 送 一 个 通用 组 加 入 消息 。 通用 组 加 入 消息 由 ( * ，G) 表示 ， 它 表示 接收 者 想 要 从 所 有 源 接 收 
组 播 分 组 ， 因 为 PIM 加 入 消息 沿 着 从 DR 到 RP 的 最 te RP， 所 以 它 最 终 可 能 到 达 RP ( 例 
如 ， 在 图 4-75 中 A 的 加 入 消息 ) ， 或 也 可 能 到 达 一 台 已 经 在 RPT 中 的 路 由 融 (例如 ,来自 图 4-75 中 B 
的 消息 ) 。 在 这 两 种 情况 下 ,在 RPT 二 的 路 由 器 将 知道 DR 想 要 加 入 组 播 组 并 沿 着 从 RP 到 DR 0 


短路 径 的 反 向 转发 组 播 分 组 。PIM-SM 的 一 个 特定 功能 ， 就 是 不 会 将 啊 应 中 的 无 确认 消息 发 回 给 D 
因此 ，DR 需要 定期 发 送 加 入 消息 以 便 维护 RPT; 否则 ， 时 间 到 期 后 ， 它 将 被 修剪 掉 
“ 加 入 
| 已 封装 的 
- 组 播发 送 
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图 4-75 ”PIM-SM 第 一 阶段 的 操作 

男 一 方面 ， 想 要 发 送 组 播 分 组 的 发 送 者 可 以 将 分 组 发 送 到 组 播 组 地 址 。 一 旦 接收 到 组 播 分 组 ， 发 
送 者 的 DR 将 它 封 装 到 PIM 注册 分 组 中 ， 然 后 再 将 它 转发 到 RP。 当 RP 接收 到 PIM 注册 分 组 时 ， 它 就 
解 封 装 并 转发 到 RPT。 你 可 能 想 要 知道 为 什么 发 送 者 的 DR 需要 封装 组 播 分 组 。 记 住 ， 任 何 主机 都 可 
以 成 为 一 个 发 送 者 ,那么 RP 如 何 知 道 潜在 的 发 送 者 在 哪里 ? 即使 PR 知道 发 送 者 在 哪里 ，RP 如 何 从 
发 送 者 那里 接收 分 组 ”在 第 一 阶段 ， 在 发 送 者 DR 的 帮助 下 ，RP 接收 来 自发 送 者 的 组 播 分 组 ， 因 为 发 
送 者 DR 能 够 识别 组 播 分 组 并 且 知 道 用 于 组 播 组 的 RP 所 在 的 位 置 。 

第 二 阶段 : 注册 停止 

民 管 封装 机 制 允许 RP 从 发 送 者 的 DR 接收 组 播 分 组 ， 但 封装 和 解 封装 的 操作 太 昂 贵 了 。 因 此 ， 在 
第 二 阶段 〈 参 见 图 4-76) ，RP 更 愿意 直接 从 发 送 者 接收 组 播 分 组 而 不 经 过 封装 。 为 了 实现 上 述 功 能 ， 
RP 发 起 一 个 PIM 特定 源 加 入 消息 给 发 送 者 。 一 个 特定 源 加 入 消息 由 (S，G) 来 表示 ， 这 表明 接收 者 
想 要 仅 从 特定 的 源 S 接收 组 播 分 组 。 当 特定 源 加 入 消息 通过 从 RP 到 源 的 最 短路 径 传播 时 ， 路 径 上 的 所 
有 路 由 器 都 在 它们 的 组 播 状 态 信息 中 记录 加 入 消息 。 加 入 消息 到 达 源 的 DR 后 ， 组 播 分 组 就 开始 沿 着 
特定 源 树 (SPT)，(S$，C) 树 ， 流 到 RP。 因 此 ，RP 可 能 收 到 重复 的 分 组 ， 其 中 一 个 分 组 就 是 原始 的 
组 播 格 式 而 另 一 个 则 是 封装 过 的 。RP 丢弃 封装 过 的 分 组 并 向 发 送 者 的 DR 发 送 一 个 PIM 注册 停止 





图 4-76 ”PIM-SM 第 二 阶段 的 操作 
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消息 。 之后， 发 送 者 的 DR 就 不 会 再 封装 和 转发 组 播 分 组 到 RP 了 ， 因 此 RP 就 可 以 直接 接收 来 自发 送 
者 的 组 播 分 组 
该 阶段 的 一 个 有 趣 场 景 是 : 万 一 路 由 器 与 RPT 位 于 同一 个 特定 源 树 时 会 发 生 什 么 ”显然 ， 很 可 能 


通过 将 从 特定 源 树 接收 到 的 组 播 分 组 直接 发 送 到 RPT 的 下 游 路 由 带 而 走 捷 径 。 

第 三 阶段 : 最 短路 径 树 

共享 树 发 送 多 播 分 组 的 一 个 缺点 是 ， 从 发 送 者 到 RP， 然 后 再 从 RP 到 接收 者 之 间 的 路 径 可 能 会 很 
长 。PIM-SM 的 一 个 新 特点 是 ， 人 允许 接收 者 的 DR 选择 性 地 启动 从 一 个 RPT 切换 到 一 个 特定 源 树 上 
图 4-77 显 示 了 从 一 个 RPT 切换 到 SPT 的 过 程 。 接 收 者 首先 发 起 一 个 特定 源 的 加 入 消息 (S，G) 到 源 
S。 加 入 消息 既 可 能 到 达 源 也 可 能 收敛 到 SPT 的 某 一 路 由 器 。 然 后 DR 开始 从 两 棵 树 接收 两 个 组 播 分 组 
的 副本 。 它 将 丢弃 从 RPT 收 到 的 副本 。 然 后 DR 发 送 一 个 特定 源 修剪 消息 (S，G) 到 RP。 修 前 消息 
既 可 以 到 达 RP 也 可 以 收敛 到 RPT 的 某 台 路 由 器 。DR 将 不 再 接收 来 自 RPT 的 分 组 ， 注意， 修剪 消息 是 
一 个 特定 源 消息 ， 因 为 DR 仍然 想 经 过 RPT 接收 来 自 其 他 发 送 者 的 分 组 






特定 源 加 入 
= 特定 源 修 前 














图 4-77 PIM-SM 第 三 阶段 的 操作 


PIM-SM 也 可 以 与 IGMPv3 的 某 些 新 功能 配合 ， 特 别 是 特定 源 加 入 功能 。 如果 接收 者 使 用 ICMPv3 发 
送 一 个 特定 源 加 入 ,那么 接收 需 的 DR 可 能 省 略 进行 一 次 普通 的 组 加 入 (* ，G)。 相反， 它 应 该 发 出 一 
个 特定 来 源 (S，G) 加 入 消息 。 为 特定 源 组 播 保留 的 组 播 地 址 范围 为 232. 0. 0. 0 ~ 232. 255. 255. 255 。 此 
外 ， 定 义 在 RFC 4607 的 特定 源 组 播 (SSM) 引入 了 一 种 新 的 一 对 多 组 播 模 型 。 它 描述 了 一 个 源 地 址 和 一 
组 地 址 进行 组 播 是 如 何 实现 的 ， 特 别 适 合 于 传播 式 的 应 用 ， 可 以 使 用 PIM-SM 来 实现 。 

PIM 分 组 格式 

图 4-78 显示 了 PIM 分 组 的 头 部 。 第 一 个 字段 描述 其 PIM 版 本 ， 当 前 PIM 版 本 是 2 第 二 个 字段 是 
类 型 字段 ,有 9 种 PIM 分 组 类 型 ， 如 图 4-78 所 示 。 第 三 个 字段 是 保留 给 未 来 使 用 ， 最 后 一 个 字段 是 
PIM 分 组 的 校 验 和 ， 它 是 整个 PIM 分 组 的 1 的 补 码 总 和 的 16 位 1 的 补 码 。 

















0 8 16 24 3 
| 版 本 | 和 保留 校 验 和 

类 型 描述 

0 Hello 


Register 


1 

2 Register-Stop 

3 Joim Prune 

4 Bootstrap 

5 Assert 

0 Graft (用 于 In PIM-SM) 

学 Graft (用 于 in PIM-DM) 

8 Candidate-RP-Advertisement 


图 4-78 ”PIM 分 组 格式 





4.7.4 域 间 组 播 

与 一 组 共享 一 个 RP 的 思想 使 得 RIM-SM 与 域 的 自治 性 质 相左 ， 因 此 难以 应 用 于 域 间 组 播 的 日 的 。 
例如 ， 如 果 一 个 发 送 者 和 同一 域内 的 一 群 接收 者 形成 一 个 组 播 组 ,但 组 的 RP 位 于 另 一 个 域 中 ， 那 么 
所 有 的 分 组 在 它们 能 够 被 那些 接收 器 接收 色 之 前 它们 就 震 要 先 到 其 他 域 中 的 RP。 因 此 ， 通 党 不 使 用 
PIM-SM 宅 越 域 。 每 个 组 在 每 个 域内 部 将 有 一 个 RP。 

如 果 PIM-SM 是 用 在 单个 域 中 ， 那 么 每 个 RP 就 知道 所 有 的 源 和 在 其 管理 下 的 所 有 组 的 接收 者 . 
然而 ， 它 没有 机 制 知 道 它 域外 的 源 。 组 播 源 发 现 协 议 (MSDP) 建议 用 于 RP 以 便 学 习 远程 域 中 的 组 
播 源 。 上 有 具体 来 讨 ， 每 个 域 中 的 RP 会 与 远程 域 中 RP 建立 一 种 MSDP 对 等 关系 。 当 RP 获悉 它 自 己 域 
内 的 一 个 新 的 组 播 源 时 ， 它 就 使 用 源 活跃 (Source Active，SA) 消息 通知 它 的 MSDP 对 等 有 具体 地 
诽 ，RP 将 从 源 接 收 旬 的 第 一 个 数据 分 组 封装 到 一 条 源 活跃 消息 中 ， 然 后 将 SA 发 送 到 所 有 对 等 ， 如 
图 4-79 所 示 ， 如 果 接 收 RP 有 一 个 SA 组 的 (S,，G) 表 项 ，RP 就 向 源 RP 发 送 一 条 (S，G) 加 入 消 
息 以 便 分 组 可 以 转发 到 RP。RP 解 封装 数据 并 将 它 沿 着 共享 树 转 发 ， 如 果 在 其 域 中 有 接收 者 ， 可 以 
通过 发 送 一 条 特定 源 (S$，G) 加 入 消息 从 源 建 立 一 条 更 短 的 路 径 。 每 个 RP 也 定期 发 送 SA， 包 括 在 
其 域 中 的 所 有 源 ， 到 其 对 等 ，RFC 3446 提出 选 播 RP 协议 以 便 为 MSDP 应 用 提供 PIM-SM 域 中 的 容错 
和 负载 共享 


MSDP 对 等 一 一 一 









ee SA 
源 活动 消息 加 入 
(S.324:2.3.3) 






SA 消息 
192.1.1.1. 224.2.2.2 





注册 
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图 4-79 ”MSDP 的 操作 流 


男 一 方面 ， 多 协议 扩展 到 边界 网 关 协 议 (MBGP) 定义 在 RFC 2858 中 ， 它 也 人 允许 路 由 器 之 间 交 换 
路 由 信息 。 因此， 如 果 采 用 MBGCP 提供 MRIB，PIM-SM 的 DR 也 将 会 有 域 间 路 由 


行动 原则 : 卫 组 播 或 应 用 组 播 

在 目前 的 互联 网 中 ， 由 于 多 方面 的 考虑 IP 组 播 仍 然 不 能 广泛 部 署 。 支 持 IP 组 播 的 路 由 器 必须 维 
护 所 有 的 活跃 (活动 ) 组 播 会 话 的 状态 ， 因 此 随 着 这 些 会 话 数 的 增多 就 可 能 成 为 系统 瓶颈 ， 导 致 差 的 
可 扩展 性 。 此 外 ， 传 输 层 功能 支持 组 播 仍然 广 受 争议 。 例 如 ， ee 
控制 要 求 的 最 优 解 、 此 外 ， 很 少 有 互联 网 服务 提供 商 〈ISP) 愿意 支持 组 播 是 因为 缺乏 适当 的 付费 结 
机 制 ， 使 得 组 播 难 以 广泛 地 部 署 

有 些 研究 人 员 已 经 提出 应 用 层 组 播 【ALM) 的 概念 以 便 解 决 这 些 问题 。ALM 的 基本 思想 是 ， 组 插 
服务 是 由 应 用 层 提 供 而 非 网 络 层 ， 用户 空间 部 署 配置 使 ALM 与 当前 的 IP 网 络 兼容 。 也 就 是 说 ， 路 由 
器 和 互联 网 服务 供应 商 不 需要 更 改 或 特殊 的 支持 ， 此 外 ，ALM 在 定制 特定 应 用 方面 允许 更 灵活 的 控 
制 ， 使 得 传输 层 功能 易于 部 署 ，ALM 会 话 的 参与 者 构成 参与 者 之 间 单 播 连接 的 覆盖 。 参 与 者 既 可 以 是 
专用 机 也 可 以 是 终端 主机 .一 个 基于 基础 设施 的 ALM 方法 是 指 一 个 由 专用 机 构成 的 覆盖 办 法 ， 而 基于 
对 等 的 ALM 方法 的 履 盖 是 由 终端 主机 形成 的 。 最 近 ，ALM 已 经 成 为 对 等 网 络 模型 的 一 种 特殊 应 用 ， 
这 一 点 我 们 将 在 第 6 章 中 进一步 说 明 。 
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开源 实现 4. 12: mrouted 


概述 
我 们 将 要 学 习 的 组 播 路 由 的 开源 实现 是 mrouted， 它 实现 DVMRP 协议 
数据 结构 


在 mrouted 中 ， 组 播 路 由 表 存 储 为 路 由 表 项 的 一 个 双 链 表 ， 由 结构 “trtentty” (在 mrouted/ 
route.h 中 ) 表示 。 对 于 每 个 子 网 ， 如 果 有 组 播 功 能 ， 那 么 就 有 一 条 路 由 表 项 。 子 网 中 的 活跃 组 播 组 
列表 ， 简 称 组 表 ， 由 EL groups 指针 指向 ， 如 图 4-80 所 示 。 组 表 由 2 个 双 链 表 组 表 项 组 成 ， 它 们 又 
由 结构 gtable (定义 在 mrouted/prune. nh) 表示 。 第 一 个 链表 是 同一 个 源 的 活跃 组 通过 组 地 址 排序 
后 的 链表 ， 在 路 由 表 项 中 由 指针 gt next 和 gt prev 所 指 。 第 二 个 链表 (由 gt gprev、gt gnext 
链接 起 来 ) 是 一 个 所 有 源 和 组 中 活跃 组 的 列表 并 且 由 kernel table 指向 。 


Routine table 
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网 4-80 ”mrouted 的 数据 结构 

算法 实现 

图 4-81 显示 了 与 mrouted 中 组 播 路 由 相关 的 函数 调用 图 ， 当 接收 到 一 个 IGMP 分 组 时 ， 就 调用 
accept igmp () 函数 来 处 理 分 组 ,根据 该 分 组 的 类 型 和 代码 ， 相 应 地 调用 不 同 的 函数 。 如 果 类 型 与 JCMP 协 
议 相 关 ， 例 如， 成 员 查 询 或 报告 (版 本 1 或 2)， 那么 就 分 别 调用 accept membership query () 或 accept 
_group report ()。 田 一 方面 ， 如 果 分 组 的 类 型 是 IGMP DVMRP， 那 么 就 检查 该 分 组 的 代码 以 确定 对 应 的 
操作 。 例 如 ， 如 果 代码 是 dvmrp _ report， 那么 就 调用 accept report ()。 在 accept report () 中 ， 处 
理 分 组 中 报告 的 路 由 并 调用 update route () 更 新 路 由 。 如 果 代码 是 DVMRP PRUNE ， 那 么 就 调用 accept 
Prune () 。 在 accept prune () 中 ， 如 果 所 有 的 子路 由 器 已 经 表示 对 组 没有 兴趣 ， 那 么 就 调用 send prune 
() 向 上 游 路 由 器 发 送 修剪 消息 











accept ismp () | 一 accept_report () 上 一 一 = | update route() 





























accept prune () 上 一 ”| send prune () 





图 4-81 mrouted 开源 实现 
练习 


在 mrouted 的 源 代 码 中 跟踪 以 下 三 个 函数 : accept report () 、update _ route () 和 accept 
Przune () ， 并 画 出 流程 图 。 比 较 所 绘制 的 流程 图 与 本 节 中 介绍 的 DVMRP 协议 ， 
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4.8 总 结 

在 本 次 中， 我 们 学 习 了 网 络 协议 栈 中 的 互联 网 协议 CIP) 层 或 网 络 层 ， 它 是 实现 全 球 网 络 连接 的 
最 重要 的 一 层 。 我 们 已 经 讨论 了 用 于 互联 网 的 控制 平面 和 数据 平面 的 多 种 机 制 以 便 提 供 主 机 到 主机 之 
问 的 连接 服务 。 在 我 们 已 经 讨论 过 的 这 些 机 制 中 ， 路 由 和 转发 是 该 层 中 最 重要 的 。 路 由 是 一 种 控制 平 
面 机 制 ， 它 确定 分 组 从 源 路 由 器 到 目的 路 由 占 的 路 由 或 路 径 。 转 发 是 一 种 数据 平面 操作 ， 在 路 由 融 中 
根据 控制 平面 计算 出 的 路 由 表 将 一 个 从 进入 网 络 接口 到 达 的 分 组 转发 到 外 出 网 络 接口 。 

假定 一 台 踏 由 带 每 秒 需 要 处 理 数 百 万 个 分 组 ， 可 扩展 性 对 于 这 两 种 机 制 就 非常 对 于 路 由 ， 
我 们 已 经 知道 互联 网 采用 三 层 路 由 结构 ， 也 就 是 所 谓 的 域内 路 由 和 域 间 路 由 be 将 路 由 器 分 
组 为 自治 系统 (AS), 在 一 个 AS 中 的 路 由 器 处 于 同一 行政 控制 并 运行 相同 的 域内 路 由 协议 ， 如 RIP 或 
OSPF。 选择 的 路 由 带 ， 称 为 边界 路 由 器 ， 相 互 连 接 起 来 并 使 用 域 间 路 由 协议 〈 如 边界 网 关 协 议 BCP ) 
负责 在 AS 之 间 转 发 分 组 。 我 们 也 学 习 了 两 种 基本 的 路 由 算法 ， 即 距离 矢量 路 由 和 链 路 状态 路 由 。 目 前 
的 互联 网 路 由 协议 就 是 根据 这 两 种 基本 的 路 由 协议 之 一 设计 的 。 距 离 矢 量 路 由 算法 采用 分 布 式 的 方法 ， 
仅 与 邻居 交换 路 由 信息 ; 而 链 路 状态 路 由 算法 是 一 个 集中 式 的 方法 ,将 所 有 路 由 信息 洪 泛 到 同一 域内 
的 所 有 路 由 器 ， 因 此 每 台 路 由 器 都 建立 一 个 所 有 路 由 器 的 全 局 拓扑 数据 库 。 对 于 转发 ， 我 们 已 经 学 习 
了 路 由 表 的 数据 结构 以 及 这 种 数据 结构 的 查找 及 更 新 算法 ,它们 对 可 扩展 性 非常 关键 。 在 当前 互联 网 
上 骨干 上 的 路 由 表 有 300 000 条 以 上 的 表 项 ,使 转发 更 具 挑 战 性 。 在 某 些 情况 下 ， 可 能 需要 特定 的 ASIC 
从 CPU 纯 载 路 径 表 查找 以 便 实现 每 秒 百 万 分 组 的 转发 速度 

在 本 音 中 讨论 了 两 种 互联 网 协议 〈 了 中) ， 分 别 是 IPv4 和 IPv6。 我 们 预测 在 未 来 的 几 年 中 ，IPv6 将 
占 主 导 地 位 。 为 了 应 对 地 址 耗 尽 问题 ， 我们 也 介绍 了 网 络 地 址 翻译 (NAT) 协议 和 私有 IP 地 址 。 除 了 
IP 协议 外 ,我们 还 研究 了 多 个 控制 平面 肉 议 ， 如 ARP、DHCP 和 ICMP 

在 本 草 中 ， 我 们 还 描述 了 三 种 通信 类 型 ， 即 单 播 、 组 播 和 广播 。 此外， 我 们 已 经 看 到 了 新 的 通信 
类 型 ，IPv6 支持 的 选 播 。 单 播 ， 即 点 到 点 通信 ， 一 直 是 我 们 讨论 的 重点 。IPv4 和 IPv6 当然 也 支持 广播 
和 组 播 。IP 子 网 定义 为 有 具有 一 个 IP 地址 ( 称 为 子 网 地 址 ) 的 广播 域 ， 它 可 以 通过 IP 地 址 和 子 网 掩 码 
的 汪汪 秆 国生 将 一 个 子 网 地 址 作为 分 组 的 目的 地 址 时 ， 分 组 就 会 传递 到 子 网 内 的 所 有 主 
机 ， 通 常 对 应 于 由 多 台 两 层 设备 组 成 的 局 域 网 。 我 们 已 经 学 习 了 多 个 依赖 于 广播 服务 的 协议 ， 如 ARP 
和 DHCP。 在 本 草 的 最 后 一 节 ， 我 们 还 学 习 了 多 个 组 播 路 由 协议 和 成 员 管理 协议 。 

完成 了 主机 到 主机 连通 性 的 研究 后 ， 接 下 来 我 们 将 学 习 进 程 到 进程 的 连通 性 ， 互 联网 协议 栈 的 下 
ee 我 们 将 学 习 来 自 同一 台 主 机 上 不 同 进程 的 分 组 如 何 多 路 复 用 一 起 通过 IP 协议 发 送 。 我 们 还 

学 习 如 何在 由 PP 协议 提供 的 尽 最 大 努力 服务 上 构建 可 靠 的 通信 。 最 后 ， 我 们 将 看 到 如 何 通 过 套 接 字 
we 


常见 陷阱 


MAC 地 址 、IP 地 址 和 域名 


每 个 网 络 接口 至 少 带 有 一 个 MAC 地 址 、 一 个 下 地 址 和 一 个 域名 。 它 们 被 协议 栈 的 不 同 层 用 于 
寻 址 。MAC 地 址 总 是 与 网 卡 在 一 起 ， 它 被 链 路 层 协议 使 用 ， 它 是 一 种 在 每 个 网 卡 的 生产 过 程 中 分 

“固化 ”的 唯一 地 址 。 因 此 ， 它 是 一 个 硬件 地 址 。 通 常 ，MAC 地 址 不 具有 层次 化 的 结构 ， 仅 用 
于 广播 环境 中 的 寻 址 。TP 地 址 被 网 络 层 协 议 使 用 ， 如 本 章 所 述 。 与 MAC 地 址 不 同 ，IP 地 址 具有 层次 
化 的 结构 ， 可 用 于 路 由 。 它 可 以 手动 或 自动 地 配置 ， 因 此 ， 它 是 一 个 软件 地 址 。 域 名 是 一 串 人 类 可 
谈 的 字符 。 虽 然 在 大 多 数 情 况 下 ， 域 名 是 一 个 由 英文 字母 组 成 的 字符 串 ， 但 由 前 从 可由 闻 伴 何 寺 写 。 
域名 的 目的 是 使 人 们 容易 记 住 主机 的 地 址 ， 尤 其 是 像 万 维 网 这 样 的 应 用 ， 域 名 表示 成 URL 格式 。} 
发 送 分 组 时 ， 每 层 协议 都 需要 地 址 翻译 以 便 取得 正确 的 地 址 。 因此 ， 使 用 域名 系统 (DNS ) 效 负 名 
翻译 成 IP 地址， 并 利用 地 址 解析 协议 (ARP) 将 全 地 址 翻译 成 MAC 地 址 ，DNS 和 ARP 都 支持 逆向 
翻译 
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转发 和 路 由 

再 次 强调 理解 转发 和 路 由 之 间 的 差异 非常 重要 。 转 发 是 一 种 数据 平面 功能 ， 市 路 由 是 一 种 控制 平 
面 功能 。 转发 的 任务 就 是 在 一 台 路 由 器 内 将 分 组 从 一 个 进入 网 络 接口 转发 到 一 个 外 出 网 络 接口 ， 而 路 
由 则 是 在 任意 两 台 主 机 之 间 查 找 一 条 路 由 路 径 


有 类 IP 和 CIDR 

有 类 IP 寻 址 是 指 在 互联 网 协议 中 IP 地 址 的 最 初 设计 。 对 于 有 类 IP 地 址 ， 每 类 IP 地 址 的 网 络 前 级 
长 度 是 固定 的 ， 并 且 地 址 能 很 容易 从 前 几 位 加 以 区 别 。 此 外 ， 一 个 网 络 前 级 可 容纳 的 最 大 主机 数量 也 
是 固定 的 。 然 而 ， 这 种 设计 造成 IP 地址 分 配 的 不 灵活 性 并 增加 了 路 由 表 中 C 类 地 址 的 表 项 。 无 类 域 间 
路 由 (CIDR) 允许 可 变 网 络 前 级 长 度 。CIDR 在 聚合 多 个 连续 C 类 地 址 中 是 最 有 效 的 。 目 前 ， 大 多 数 
的 路 由 器 支持 CIDR 


动态 主机 配置 协议 和 IPv6 自动 配置 

在 IPv4 中 ,动态 主机 配置 协议 (DHCP) 用 来 自动 配置 主机 地 址 。 然 而 ,在 IPv6 中 ， 自 动 配置 是 
通过 ICMPv6 协议 使 用 路 由 器 通告 和 路 由 器 请 求 消息 来 支持 的 。 它 们 是 不 同 的 吗 ? 在 一 个 全 IPv6 的 网 
络 中 还 需要 DHCP 吗 ? 这 两 个 问题 的 答案 是 肯定 的 。 动 态 主机 配置 协议 是 基于 BOOTP 的 。 因 此 ， 在 分 
组 头 部 中 的 许多 字段 都 未 使 用 ， 尽 管 使 用 选项 字段 承载 我 们 需要 的 信息 。 在 IPv6 中 ， 自 动 配置 过 程 是 
一 种 新 的 设计 ， 而 不 是 基于 DHCP 或 BOOTP。 然 布 ， 出 于 安全 或 网 络 管理 的 考虑 ， 网 络 管理 员 可 以 选 
择 使 用 DHCP 服务 咒 控 制 IP 地 址 的 分 配 


组 播 树 和 Steiner 树 

Steiner 树 ， 以 Jakob Steiner 命名 ， 是 以 源 节点 为 根 并 以 最 小 成 本 扩展 到 一 组 目的 节点 。 它 不 同 于 最 
小 生成 树 ， 因 为 目的 节点 集合 不 一 定 包 括 图 中 的 所 有 节点 (顶点 )。 因 此 ， 一 棵 Steiner 树 可 以 视 为 组 
播 路 由 的 一 个 最 优 解 。 不 过 ， 在 我 们 研究 的 所 有 组 播 路 由 协议 中 ,还 没有 一 个 试图 建立 一 棵 Steiner 
树 。 相 反 ， 它 们 中 的 大 部 分 构建 反 向 最 短路 径 树 ， 既 可 以 以 源 为 根 也 可 以 以 汇聚 点 (BP) 为 根 。 原 因 
在 于 找到 一 个 Steiner 树 是 一 个 NP 完全 问题 ， 并 且 大 多 数 启发 式 算法 都 需要 全 局 信息 。 因此 ， 反 向 最 
短路 径 树 成 为 互联 网 构建 组 播 树 更 加 切实 可 行 的 解决 方案 。 


进一步 阅读 


IPv4 


从 互联 网 协议 发 展 的 历史 观点 来 看 ， 下 列 文件 很 老 但 曾经 是 重要 的 先驱 前 瞻 性 工作 - 在 本 章 和 第 
1 章 中 已 经 学 习 了 其 主要 思想 

® V. Cerfand R. Kahn, “A Protocol for Packet Network [ntercommunication,” JEEE Transactions on 
Communications, Vol. 22. pp. 637 —648, May 1974. 

®]. B. Postel, “Internetwork Protocol Approaches,” IEEE Transactions on Communications, Vol. 28, 
pp. 604 -611，Apr 1980. 

®]. Saltzer, D. Reed, and D. Clark, “ End-to-End Arguments in System Design,” ACM Transactions on 
Computer Systems (TOCS) , Vol. 2, No. 4, pp. 195 -206, 1984. 

e D. Clark, “ The Design Philosophy of the Internet Protocols,” Proceedings of ACM SIGCOMM, 
Sept. 1988. 

与 IJPv4 、ICMP 和 NAT 相关 的 RFC 分 别 是 : 

® J]. Postel, “Internet Protocol,” RFC 0791, Sept. 1981. (Also STD 0005.) 

e K. Nichols, S. Blake, F. Baker, and D. Black, “Definition of the Differentiated Services Field ( DS 
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Field) in the IPy4 and 1IPv6 Headers,” RFC 2472, Dec. 1998. 

® J. Postel, “Internet Control Message Protocol,™ RFC 792, Sept. 1981. (Also STD 0005 ) 

ep. Srisuresh and K. Egevang, “Traditional IP Network Address Translator ( Traditional NAT).™” RFC 
3022, Jan. 2001. 

日 上， Rosenberg, R. Mahy, P. Matthews, and D. Wing, “Session Traversal Utilities for NAT (STUN),™ 
RFC 5389, Oct. 2008. 


快速 表 查 找 
数据 平面 分 组 处 理 的 一 个 有 趣 话题 ， 就 是 分 组 转发 和 分 组 分 类 的 快速 表 杏 询 。 前 者 是 在 一 个 字 爬 
(日 的 他 地 址 ) 的 最 长 前 缓 匹配， 而 后 者 则 是 多 字段 匹配 ， 如 5 元 组 ( 源 / 目 的 地 址 、 源 /日 的 端口 号 、 
协议 这) 。 下 面 列 出 的 第 一 篇 论文 是 有 关 分 组 转发 的 软件 算法 ， 它 只 震 要 一 张 很 小 的 表 ， 而 接 下 来 的 两 
个 是 硬件 解决 方案 。 最 后 两 篇 论文 则 是 分 组 分 类 的 硬件 解决 方案 
® M. Degermark, A. Brodnik, S. Carlsson, and S. Pink, “Small Forwarding Tables for Fast Routing 
Lookups,” ACM SIGCOMM” 97, pp.: 3—14, Oct. 1997. 
® M. Waldvogel, G. Varghese, J. Turner, and B. Plattner, “ Scalable High Speed Routing Lookups,™ 
ACM SIGCOMM’ 97 . pp. 25 —36, Oct. 1997. 
e P. Gupta, S. Lin, and N. McKeown, “ Routing Look - ups in Hardware at Memory Access Speeds,”™ 
IEEE INFOCOM , Apr. 1998. 
e PP. Gupta and N. Me Keown, ™ Packet Classification on Multiple Fields,™” ACM SIGCOMM 
Sept. 1999. 
© V. Srinivasan, G. Varghese, and S. Suri, ”Packet Classi ~ fication Using Tuple Space Search,™ ACM 


SIGCOMM , Sept. 1999. 


IPv6 
Bradner 和 Mankin 的 RFC 是 下 一 代 IP 的 发 起 者 。 他 们 还 出 版 了 一 本 有 关 1Png 的 书 ， 当 前 版 本 
IPv6 、ICMPv6 和 DNS 可 以 分 别 在 RFC 2460 、RFC 4443 和 RFC 3596 中 找到 
e S. Bradner and A. Mankin, “The Recommendation for the Next Generation 1P Protocol ,”RFC 1752, 
Jan. 1995. 
® S. Bradner and A. Mankin, /Png: Internet Protocol Next Generation , Addison -= Wesley, 1996. 
©S. Deering and R. Hinden, * Internet Protocol, Version 6 (IPvy6 ) Specification,” RFC 2460, 
Dec. 1998. 
® A. Conta, S. Deering, and M. Gupta, * [ntemet Control Message Protocol (ICMPv6 ) for the Internet 
Protocol Version 6 (IPvy6) Specification,” RFC 4443, Mar. 2006. 
e 5. Thomson, C. Huitema, V. Ksinant, and M. Souissi, “DNS Extensions to Support IP Version 6.” 
RFC 3596, Oct. 2003. 
主机 和 路 由 带 中 的 基本 IPv4 向 IPv6 的 过 渡 迁 移 机 制 在 RFC 4213 中 描述 。 此 外 ,迁移 机 制 的 应 用 
方面 可 以 在 RFC 4038 中 找到 ， 对 于 三 种 迁移 方法 ， 即 双 栈 、 隧 道 和 协议 转换 ， 已 经 提出 了 许多 建议 
例如 ,在 RFC 3053 中 提出 了 隧道 代理 以 帮助 用 户 配置 双向 隧道 。6to4 和 其 补救 措施 Teredo， 分 别 在 
RFC 3056 和 RFC 4380 中 描述 。 一 个 新 的 在 IPv4 基础 设施 上 快速 部 辕 IPv6 的 机 制 《6rd) ， 即 在 6 到 4 
之 上 构建 是 在 RFC 5569 中 建议 的 。ISATAP 定义 在 RFC 5214 中 。 协 议 转换 解决 方案 如 SLUT 和 NAT-PT 
分 别 定义 在 RFC 2765 和 RFC 4966 中 。 最 后 ，Geoff Huston 写 了 多 篇 关于 IPv4 地 址 耗 尽 问题 和 过 渡 到 
IPv6 方法 的 有 趣 文 草 
e E. Nordmark and R. Gilligan, * Basic Transition Mecha — nisms for IPvé Hosts and Routers,” RFC 
4213, Oct. 2005. 
® M-K. Shin, Ed., Y-G. Hong, J. Hagino, P. Savola, and E. M. Castro, “Application Aspects of 
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IPv6e Transition,” RFC 4038, Mar. 2005. 

eA. Durand, P. Fasano, [. Guardini, and D. Lento, “IPv6 Tunnel Broker,” RFC 3053, Jan. 2001. 

e B. Carpenter and K. Moore, “Connection of IPv6 Domains via TIPv4 Clouds,” RFC 3056, Feb. 2001. 

© CC. Huitema, “Teredo: Tunneling IPv6 over UDP through Network Address Translations (NATs),” RFC 
4380, Feb. 2006. 

® EE. Exist and R. Despres, “ IPv6é Rapid Deployment on IPv4 Infrastructures (6rd),” RFC 5569, 
Jan. 2010. 

oF. Templin, T. Gleeson, and D. Thaler, “ Intr-Site Au-tomatic Tunnel Addressing Protocol 
(ISATAP),” RFC 5214, Mar. 2008. 

® EE. Nordmark, “Stateless IP/AICMP Translation Algorithm (SHT),™ RFC 2765, Feb. 2000. 

®C. Aoun and E. Davies, “ Reasons to Move the Network Address Translator-Protocol Translator 
(NAT-PT) to Historic Status,” RFC 4966, July 2007. 

e Geoff Huston, “ IPv4 Address Report,” retrieved April 24, 2010, from http: A//www. potaroo. net/ 
tools/ipv4/index. html. 

® Ceoff Huston, “Ts the Transition to IPvo a ”Market Failure?’ ， The ISP Column, Apr. 2010, 


retrieved April 24, 2010, from http: A/cidr ~ report. org/ispeol/ 2009 -09/v6trans. html. 


路 由 

RIP、OSPF 和 BGP 的 最 新 RFC 是 : 

eG. Malkin, “RIP Version 2,” RFC 2453, Nov. 1998. 

®]. Moy, “OSPF Version 2,” RFC 2328, Apr. 1998. (Also STDO0S4. ) 

oR. Coltun, D. Ferguson, J. Moy, and A. Lindem, “ OSPF for IPv6,”RFC 5340, July 2008. 

© Y. Rekhter, T. [i, and S. Hares, “ A Border Gateway Protocol 4 (BGP -4),™ RFC 4271, Jan. 2006. 

在 文献 中 最 优 路 由 已 经 公式 化 表示 成 一 种 网 络 流 的 问题 ， 其 中 流量 建 模 为 网 络 中 的 源 和 目的 地 之 
间 的 流 。Bertsekas 和 Gallagher 的 教科 书 针对 这 种 处 理 给 出 了 了 一 个 很 好 的 教程 ， 

® D. Bertsekas and R. Gallagher, Data Networks, 2™ edi-tion, Prentice Hall, Englewood Cliffs, 

NJ, 1991. 
有 关 互 联网 路 由 、OSPF 和 BCP 更 加 详细 的 研究 ， 参 见 下 面 书籍 可 能 会 很 有 用 ， 
e C. Huitema, Routing in the Internet, 2" edition, Prentice Hall, 1999. 
®S. Halabi and D. McPherson, Internet Routing Architectures, 2" edition, Cisco Press, 2000. 
®]. T. Moy, OSPF: Anatomy of an Internet Routing Protocol, Addison - Wesley Professional ，1998. 
eV Beijnum, BGP, O° Reilly Media, 2002. 
域 间 路 由 的 动态 性 已 经 通过 测量 和 建 模 方 式 受 到 人 们 的 重视 。2005 年 12 月 11 月 出 版 的 《IEEE 
Network Magazine》 有 关 域 间 路 由 的 专刊 上 上 上， 可 以 发 现 许多 有 趣 的 结果 。 近 来 ，BCP 容错 也 备 受 关注 ， 
尤其 是 基于 多 路 径路 由 的 解决 方案 。Xu 等 人 和 Wang 等 人 的 论文 就 是 很 好 的 例子 。 
e M. Caesar and J. Rextord, “BCP Routing Policies im ISP Networks,” JEEE Network, Vol. 19, lssue 
6, Nov/ Dec 2005. 

e R. Musunuriand J. A. Cobb, “An Overview of So-lutions to Avoid Persistent BGP Divergence,” JEEE 
Network, Vol. 19, [ssue 6, Nov/ Dec 2005. 

e A. D. Jaggard and V. Ramachandran, “Toward the De-sign of Robust Interdomain Routing Protocols ,” 
IEEE Network, Vol. 19, Issue 6, Nov/ Dec 2005. 

oo W. Xuand J. Rextord, “ Miro: Multi-Path Interdomain Routing,” ACM SIGCOMM, Sept. 2006. 

e F. Wang and L. Gao, “ Path Diversity Aware Interdomain Routing,” JEEE IEEE INFOCOM., 
Apr. 2009. 


一 务 4 草 





组 播 


ho 的 专题 论文 中 对 组 播 进行 了 相当 全 面 的 研究 ， 


的 。 关 于 IPv6 组 播 与 IPv4 组 播 的 比较 ， 读 者 可 以 参 闪 Metz 和 Tatipamula 的 论文 。 


虽然 在 互联 网 上 的 部 署 不 是 很 成 功 ， 但 是 已 经 为 域内 和 域 间 组 播 建 议 提出 了 许多 协议 。 在 Ramal- 
对 组 播 的 早期 工作 ，Deering 和 Cheriton 的 论文 是 必 读 


e M. Ramalho, “Intra-and Inter-Domain Multicast Routing Protocols: A Survey and Taxonomy,” IEEE 
Communications Surveys and Tutorials, Vol. 3, No. 1, 1 st quarter, 2000. 

® S. Deering and D. Cheriton, “ Multicast Routing in Datagram Internetworks and Extended LANs,” ACM 
Transactions on Computer Systems, Vol. 8, pp. 85 110, May 1990. 

eC. Metz, and M. Tatipamula, “ A Look at Native IPv6 Multicast,” IEEE Internet Computing, Vol. 8, 
pp. 48 53, July/ Aug 2004. 

组 播 成 员 管 理 和 路 由 的 最 新 RFC 是 : 

e B. Cain, S. Deering, I. Kouvelas, B. Fenner, and A. Thyagarajan, “ Internet Group Management 
Protocol, Version 3,” RFC 3376, Oct. 2002. 

® D. Waitzman, C. Partridge, and S. E. Deering, “Distance Vector Multicast Routing Protocol,” RFC 
1075, Nov. 1998. 

e B. Fenner, M. Handley, H. Holbrook, and I. Kouvelas, “ Protocol Independent Multicast Sparse Mode 
(PIM — SM): Protocol Specification (Revised),” RFC 4601, Aug. 2006. 

© N. Bhaskar, A. Gall, J. Lingard, and S. Venaas, “Boot-strap Router (BSR) Mechanism for Protocol 
Indepen =- dent Multicast (PIM),™ RFC 5059, Jan. 2008. 

® D. Kim, D. Mevyer, H. Kilmer, and D. Farinacci, “Anycast Rendevous Point (RP) Mechanism Using 
Protocol Independent Multicast (PIM) and Multicast Source Discovery Protocol ( MSDP),” RFC 3446, 
Jan. 2003. 


常见 问题 解答 


1. 


1 


对 于 网 络 接口 ， 我 们 为 什么 既 需 要 MAC 地 址 又 需要 IP 地 址 呢 ? 为 什么 不 只 使 用 一 种 地 址 呢 ? 
答 : 如 果 只 使 用 耳 地 址 ， 就 没有 链 路 层 操 作 、 没 有 桥接 、 没 有 广播 链 路 

如 果 仅 使 用 MAC 地 址 ， 就 没有 分 层 的 互联 网 体系 结构 、 没 有 子 网 操作 、 没 有 路 由 

为 什么 MAC 地 址 是 平面 的 , 但 IP 地 址 是 层次 化 的 ? 

答 : MAC 地 址 : 全 球 唯 一 制造 ， 但 没有 与 位 置 关联 起 来 ， 因 此 是 平面 的 。 

IP 地址 : 全 球 唯一 配置 ， 包 含 与 位 置 关 联 的 信息 ， 因 此 是 层次 化 的 。 


. 为 什么 在 路 由 器 和 主机 内 部 使 用 子 网 掩 码 ? 


答 : 路 由 融 : 在 匹配 的 前 级 中 选择 最 长 的 一 个 。 
主机 : 确定 目的 了 P 地 址 是 否 在 用 户 的 子 网 内 。 


.路 由 与 转发 有 什么 不 同 ?( 比较 它们 的 工作 类 型 和 所 使 用 的 算法 ,) 


答 ; 转发 :数据 平面 ,通过 表 查 找 匹 配 最 长 的 前 级 。 

路 由 : 控制 平面 ， 由 Dijkstra 或 Bellman-Ford 算法 计算 最 短 的 路 径 ， 

在 路 由 占 的 查找 表 中 ， 为 什么 会 有 多 个 匹配 的 IP 前 级 ? (解释 什么 网 络 配置 可 能 导致 它 的 发 生 。) 

答 : 如 果 分 配 了 前 缀 (比如 140. 113Z16) 的 组 织 已 经 创建 了 远程 分 支 机 构 (如 140. 113.0/18 和 140. 
113. 192/18)， 那 么 将 有 多 个 前 级 ， 在 本 例 的 所 有 路 由 器 中 有 3 个 。 如 果 将 分 组 发 到 140. 113. 221. 86， 
它 既 与 140. 113/16 匹配 又 与 140. 113. 192/18 匹配 ,后 者 是 最 长 匹配 。 

在 Linux 内 核 中 最 长 前 级 匹配 是 如 何 实现 的 ”为 什么 匹配 的 前 缀 保证 是 最 长 的 呢 ? 

答 : 转发 表 组 织 成 相同 前 级 长 度 的 散 列表 数组 。 根 据 前 缀 长 度 对 数组 进行 排序 。 从 具有 最 长 前 缀 的 非 空 
散 列表 开始 ， 从 而 保证 第 一 个 匹配 是 最 长 的 。 


.在 Linux 内 核 中 转发 表 是 如 何 组 织 的 ? 
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答 : 它 包括 一 个 转发 缓存 和 一 个 FIB (转发 信息 库 ) ， 其 中 前 者 是 一 个 散 列 表 ， 用 于 存储 最 近 查 找 过 的 
表 项 ， 而 后 者 是 相同 前 绥 长 度 的 散 列表 数组 (转发 缓存 中 没有 命中 后 可 以 继续 查找 ) 


8. 在 日 的 主机 的 IP 重组 中 需要 什么 头 部 字段 ? 


答 : 标识 符 、 更 多 位 和 分 段 偏 移 ， 


9. 为 了 计 : FTP 通过 NAT 需要 修改 哪些 分 组 ? 


10. 


20. 


2 


答 : 非 ALG 修改 : 外 出 (进入) 分 组 的 源 (目的 ) IP 地 址 和 源 端 口号 、IP 头 部 校 验 和 、TCP 校 验 和 。 
ALG 修改 : 在 FTP 消息 中 的 IP 地址 和 端口 号 、TCP 序列 号 和 TCP 确认 号 


让 ICMP 通过 NAT 需要 修改 哪些 分 组 ? 
答 : 非 ALG 修改 : 外 出 (进入 ) 分 组 的 源 (目的 ) IP 地 址 和 源 端 口号 、IP 头 部 校 验 和 。 
ALG 修改 : ICMP 消息 中 的 ICMP 校 验 和 、IP 地 址 。 


.在 Linux 内 核 中 NAT 表 如 何 实现 ? 


答 : 散 列表 

IPv4 中 的 哪些 头 部 字段 在 IPv6 中 被 删除 了 ， 又 有 哪些 新 的 字段 添加 到 IPv6 头 部 中 ? 为 什么 ? 
答 : 删除 的 : 头 部 校 验 和 、 分 段 (标识 符 、 更 多 位 、 不 分 段位 、 分 段 偏 移 ) 、 协 议 及 选项 。 
添加 的 : 流标 签 和 下 一 个 头 部 


.IPv4 和 IPv6 如 何 才能 共存 ? 


答 : 双 协 议 栈 : 在 路 由 器 和 主机 中 有 IPv4 和 IPv6 协议 栈 。 

隧道 : 在 IPv6 孤岛 之 间 采 用 v6 -v4 -v6 隧道 ,而 在 IPv4 孤岛 之 间 采 用 v4 -v6 -v4 隧道 。 
主机 如 何 通过 ARP 将 IP 地 址 翻译 成 MAC 地 址 ? 

答 : 以 指定 的 卫 地 址 在 本 地 子 网 上 广播 一 个 ARP 请 求 ， 并 从 有 具有 指定 IP 地 址 的 主机 上 获得 一 个 单 播 
ARP 响应 。 

主机 如 何 通过 DHCP 或 ARP 获取 其 IP 地 址 ? 

答 : DHCP: 广播 DHCPDISCOVER 以 便 找到 一 台 DHCP 服务 器 ， 然 后 得 到 配置 。 

ARP: 广播 一 个 带 有 自己 MAC 地 址 的 RARP 请 求 ， 并 从 RARP 服务 器 获得 单 播 RARP 响应 。 


.ping 和 tracepath 是 如 何 实 现 的 ? 


答 : Ping: ICMP echo 请 求 和 应 答 . 
Tracepath: 以 TIL=1、2 等 ,重复 发 送 UDP 或 ICMP echo 请 求 ， 直 到 从 目标 主机 接收 到 一 个 ICMP 端 
口 不 可 达 (对 于 UDP) 或 ICMP echo 应 答 (对 于 ICMP echo 请 求 ) 为 止 


.在 RIP 上 为 何 会 发 生计 数 无 穷 问 题 呢 ? 


答 : 路 由 器 检测 链 路 故障 更 新 并 与 邻居 路 由 器 交换 距离 矢量 。 如 果 路 由 器 接收 并 接受 来 自 邻 居 的 距离 
矢量 而 不 检查 路 径 是 否 经 过 它 白 身 ， 那 么 直到 可 用 路 径 信息 传播 到 这 里 路 由 器 可 能 才 会 终止 相互 递增 
地 更 新 距离 天 量 。 在 此 期 间 ， 在 两 台 对 等 路 由 器 之 间 可 能 产生 分 组 循环 


.RIP 与 OSPF 有 什么 不 同 ? (比较 它们 的 网 络 状态 信息 和 路 由 计算 。) 


答 : RIP; 与 邻居 交换 距离 矢量 ， 距 离 矢 量 更 新 使 用 Bellman-Ford 算法 
OSPF 协议 : 向 所 有 路 由 器 广播 链 路 状态 ， 利 用 Dijkstra 算法 根据 全 部 拓扑 计算 路 由 表 。 


.距离 矢量 路 由 与 链 路 状态 路 由 有 什么 不 同 ? ( 比较 它们 路 由 消息 的 复杂 性 、 计 算 的 复杂 性 、 收 敛 速度 


和 可 扩展 性 。) 

答 : 路 由 信息 的 复杂 度 : DV > LS。 

计算 的 复杂 度 LS > DV 

收敛 速度 : LS > DV。 

可 扩展 性 : DV > LS。 

RIP 与 BOP 有 什么 不 同 ?〈 总 结 它们 的 异同 。) 

答 : 相同 之 处 : 交换 邻居 信息 ，Bellman-Ford 算法 。 

不 同 之 处 : 距离 矢量 与 路 径 矢 量 (对 于 无 环 路 路 由 ) ，UDP 上 的 RIP 与 TCP 上 的 BCP， 最 短路 径路 由 
与 最 短路 径 和 策略 路 由 ， 单 路 径 与 多 路 径 。 


为 什么 RIP、OSPF 和 BGP 分 别 运 行 在 UDP、IP、TCP 上 ? 
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答 : RIP: 一 种 无 连接 的 UDP 套 接 字 ,运行 在 UDP 端口 52， 它 可 以 接收 请 求 并 回 所 有 的 邻居 路 由 符 发 
还 啊 应 (通告 ) 

OSPF， 一 种 原 妈 IP 套 接 字 ， 用 丁 向 域 中 所 有 的 路 由 融 广 播 链 路 状态 。 

BCP: 面向 连接 的 TCP 套 接 宇 ， 用 于 与 远程 对 等 路 由 占 之 间 的 可 靠 传输 








22， 你 能 合计 出 AS 内 和 AS 问 路 由 器 中 的 路 由 表 项 的 数量 吗 ? (估计 范围 或 数量 级 ,) 
答 : AS 内 : 儿 十 到 数 百 ， 取 决 填 域 有 多 大 
AS 间 : 裔 布 世 界 各 地 ， 成 千 上 万 ， 取 决 于 前 绷 数 

23， 在 zebra 中 ， 路 由 协议 如 何 与 其 他 路 由 器 交换 信息 ， 如 何 更 新 内 核 中 的 路 由 表 ? 
答 : 路 由 消 且 交换 : 通过 各 种 套 接 字 (IP、UDP、TCP) 与 其 他 路 由 器 交换 信息 
路 由 表 更 新 : 通过 ioctl 、svset 、netlink 、rtnetlink 等 访问 内 核 
24.， 足 由 上 融 如 何 通 过 1CMP 知道 在 其 子 网 中 的 主机 是 盏 已 I 播 组 中 ? 
答 : 路 由 器 在 其 子 网 上 广播 通用 查询 或 特定 组 查询 ( 发送 到 224. 0.0.1 所 有 系统 组 播 组 ) 以 便 请 求 成 
员 倍 县， 如 果 在 其 随机 定时 内 过 期 之 前 子 网 上 没有 一 个 响应 ， 那么 主机 通过 响应 /广播 TTL =1 的 IGMP 
报告 来 加 入 。 该 路 由 涡 知 道 在 特定 组 播 组 中 是 否 存在 一 台 主 机 ， 但 不 知道 是 谁 以 及 有 多 少 

25。， 幅 由 器 是 可 能 ee 俑 地 知道 已 经 加 入 到 一 个 组 播 组 中 的 主机 ? 
答 : 不 知道 . 它 只 知道 子 网 中 是 和 否 有 一 台 主 机 在 特定 组 播 组 中 

26， 将 基于 源 与 基于 核心 的 组 播 树 进 行 对 比 【( 比较 它们 的 状态 数量 和 可 扩展 性 )。 
答 : 状态 数 : 基于 源 > 基于 核心 
可 扩展 性 : 基于 核心 > 基于 源 : 

27. 为 基于 源 和 基于 核心 的 组 播 路 由 器 在 路 由 器 中 分 别 存 放 多 少 状态 ? (考虑 组 播 组 和 源 的 数量 .) 可 能 会 
保持 什么 样 的 状态 信息 ? 
答 ; 基于 源 : 每 个 组 x 每 个 源 ， 即 (组, 源 ) 对 
基于 核心 : 每 个 组 de 子 网 的 成 员 状 态 、 修 果 状 态 或 加 入 状态 
28.， 组 播 分 组 在 以 DYMRP 中 的 反 向 路 径 多 播 中 真 的 会 洛 着 最 短路 径流 动 吗 ? 
答 : 不 一 定 ， 最 短路 和 从 是 从 下 游 路 由 吉 到 源 路 由 器 ， 其 反 向 路 径 不 一 定 是 从 源 路 由 器 到 下 游 路 由 占 中 
最 短 的 

29， 为 了 DVMRP 中 的 反 向 路 径 组 播 ， 路 由 融 中 应 该 保存 哪些 状态 信息 ? 
答 : 每 组 ， 源 修剪 状态 

30， 如 何 确 定 PIM-SM 中 组 播 组 的 RP? 

答 : 域 中 的 所 有 组 播 路 由 器 使 用 相同 的 散 列 函数 对 D 类 组 播 IP 地 址 。 转 换 为 散 列 值 以 便 从 候选 路 由 器 列 
表 中 选 出 组 播 路 由 器 。 

练习 

动手 练习 

1. 使 用 Wireshark 或 类 似 的 软件 ， 观 察 一 个 大 的 PP 分 组 的 分 段 。 

2. 使 用 Wireshark 或 类 似 的 软件 ， 持 续 捕 提 分 组 数秒 。 从 捕获 的 分 组 数据 中 寻找 ARP 和 全 分组， 比较 这 两 
个 分 组 的 MAC 头 部 之 间 的 区 别 ， 你 能 找 出 ARP 和 IP 的 协议 标识 符 吗 ? ARP 报 文 的 目的 地 址 是 广播 地 址 
还 是 单 播 地 址 ?ARP 分 组 是 一 个 请 求 还 是 应 符 分 组 ”检查 这 个 ARP 分 组 的 有 效 载 荷 ， 

3.， 使 用 Wireshark 或 类 似 的 软件 捕获 IP 分 组 ， 分 析 这 个 分 组 的 头 部 和 有 效 载荷 ， 是 否 能 够 识别 出 传输 层 协 
以 和 应 用 层 协议 ? 

4 使 用 Wireshark 或 类 似 的 软件 探究 如 何 使 用 ICMP 消息 实现 ping。 用 捕获 的 分 组 来 验证 你 的 答案 。 请 注 
症 ，ping 命令 在 不 同 操作 系统 上 可 以 不 同 (提示 : 使 用 Wireshark 进行 捕获 ， 然 后 使 用 命令 行 发 出 一 条 
ping 命令 ) 

5.， 使 用 Wireshark 或 类 似 的 软件 探究 如 何 使 用 ICMP 消息 实现 traceroute。 

6.， 使 用 visualroute 或 traceroute 探究 你 所 在 域 的 基础 结构 以 及 到 国外 的 路 由 (提示 : traceroute 会 提供 一 
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路 由 器 列表 ， 党 试 通过 其 子 网 地 址 和 往返 延迟 识别 不 同类 型 的 路 由 些 ) 
7.， 合用 基于 Linux 的 PC 构建 NAT 服务 名 (提示 ; Linux 通过 1P TABLES 实现 NAT) ， 
8.， 使 用 基于 Linux 的 PC 构建 DHCP 服务 理 ， 
9， 编 写 程序 来 执行 ping 命令 (提示: 使 用 原始 套 接 学 接口 发 送 ICMP 分 组 ”请 参阅 第 5 草 套 接 字 接口 ) 
10， 在 Linux 的 源 代码 中 跟踪 ip_route input () 和 ip route output key()。 分 别 描述 下 分 组 如 何 
转发 到 上 层 和 下 一 跳 (提示 : 这 是 个 邱 数 都 可 以 在 netVipv4/route.e 中 找到 ) 


书面 练习 

1 当 黄 合 主机 使 用 相同 的 他 地 址 击 忽 略 了 彼此 的 在 在 时 ,会 发 生 什么 问题 ? 

和 la 也 下 联网 的 寻 址 层次 化 结构 〈 提 示 : 电话 系统 使 用 地 理 导 址 ) 

3 为 什么 在 下 中 沿 要 分 段 ”” 为 了 分 段 和 重组 ，IP 头 部 再 要 哪些 字段 ? 

4. 1Pv4 头 部 的 标识 符 (序列 与 ) 字段 的 作用 是 什么 ? 打包 (wrap around) 是 一 个 问题 吗 ” 举 一 个 说 明 打 
包 (wrap around) 问题 的 例子 

5 JP 协议 如 何 区 分 IP 分 组 的 [上层 协 议 ” 例 如 ， 它 如 何 知道 分 组 是 否 是 ICMP、TCP 或 UDP 分 组 ? 

6 以 大 网 驱动 程序 如 何 确定 一 帧 是 否 是 一 个 ARP 分 组 ? 

久 . 分 组 穿越 路 由 器 : 当 趾 分 组 穿越 路 用 占 时 ， 路 由 器 必须 修改 IP 闫 部 中 的 哪个 字段 ? 焉 头 部 中 哪个 字 

没 可 以 由 路 由 典 修 改 ” 为 重新 计算 校 验 和 字段 设计 一 种 有 效 的 算法 (提示 : 考虑 这 些 字 段 如 何 更 改 ) 

8. ee 给 公司 分 配 一 个 上 前 级 163. 168. 80.0/22。 该 公司 拥有 三 个 分 支 机 构 ; 分 别 有 440、70、25 台 计 算 
人 机， 为 每 个 分 支 机 构 分 配 带 有 两 个 广域网 接口 的 路 由 器 以 使 提供 网 络 下 联 ， 这 样 三 台 路 由 器 是 完全 连接 
的 ， 如 果 要 求 你 为 这 三 个 分 公司 和 路 由 需 接 口 地 址 的 子 网 地 址 进行 规划 ， 你 将 如 何 做 ? (提示: 是 对 路 
用 禹 之 间 的 链 路 也 调 要 一 个 子 网 ) 

9， 如果 主机 的 IP 地址 为 168. 168. 168. 168 ， 子 网 挫 码 为 255$. 255. 255.240， 婴 么 其 子 网 地 址 是 什 这 个 





六 网 的 广播 地 址 是 什么 7 在 该 子 网 中 有 多 少 合法 的 P 地 址 ?IP 地 址 是 一 个 B 类 地 址 ,假设 它 必 十 一 家 
公司 ， 如 果 所 有 子 网 的 子 网 扼 码 为 255. 255. 255. 240 ， 那 么 这 家 公司 可 以 创建 多 少 个 子 网 ? 
10， 攻 虑 主机 革 的 趾 地 址 为 163. 168. 2. 81， 子 网 掩 人 码 为 255. 255. 255. 248 现在， 假设 和 向 以 下 IP 地 址 


( 主机 ) 分 别 发 送 分 组 : 163. 168. 2. 76、163. 168. 2. 86 、163. 168. 168. 168 、140. 123. 101. 1 对 于 每 个 
中 ， 路 由 有 何不 同 ? 如 何 发 送 不 同 的 ARP 分 组 以 使 找到 MAC 地 址 ”《〈 对 于 每 一 个 趾 地 址 ， 路 由 和 和 
ARP 分 组 的 发 送 ， 可 以 是 相同 的 也 可 以 是 不 同 的 。 和 解释 你 的 答案 ,) 

11. , -个 吓 分 组 分 段 时 ， 责 失 一 个 分 段 将 导致 整个 分 组 被 委 奔 。 疙 虑 一 个 包含 4800 字 节 数据 ( 米 自 上 上 

) 的 耳 分 组 ,将 它 发 送 和 到 直接 连接 的 目的 地 ， 考 虑 具有 不 同 MTU 的 丙种 链 路 层 类 型 ， 类 型 A 技术 

下 5 字 节 的 头 部 并 有 S3 字 节 (你 可 能 认为 它 是 ATM 技术 ) 的 MTU。 类 型 B 技术 使 用 18 字 节 的 头 部 
和 而 MTU 是 1518 字 节 (比如 以 太 网 )。 假设 类 型 A 的 帧 丢失 率 是 0.001， 类 型 B 的 帧 到 失 率 为 0.01。 比 
较 这 两 种 类 型 的 链 路 层 技术 的 分 组 丢失 率 

12， 通 过 快速 以 太 网 连接 发 送 1MB 的 MP3 文件 最 少 需 要 多 少 个 IP 分 段 ? (提示 : 忽略 IP 层 以 上 的 头 部 
-个 最 大 的 了 P 分 段 包 含 一 个 20 字 节 的 头 部 和 一 个 1480 字 节 的 有 效 载荷。) 

13， 重 组 分 段 时 ， 接 收费 如 何 知 道 两 个 分 段 属于 同一 个 IP 分 组 ?” 它 如 何 知 道 每 个 分 段 的 大 小 是 正确 的 ? 

14.， 在 你 看 来 ， 服务 质量 如 何在 IPv6 中 得 到 更 好 的 支持 ? 

15. 为 什么 IPv6 扩展 头 的 顺序 很 重要 ， 而 不 能 更 改 ? 

16， 描述 在 RFC 1981 中 定义 路 径 MTU 的 发 现 过 程 

17.， 比较 IPv4 和 TPv6 头 部 格式 之 间 的 差异 .找到 不 同 ， 并 解释 为 什么 要 进行 这 些 更改 

18.， 比较 ICMPv4 和 ICMPv6 之 间 的 差异 ， 在 IPv6 中 还 需要 DHCP、ARP、IGMP 吗 ?” 

19.， 在 1Pv4 关 部 中 ， 有 一 个 协议 标识 符 字段 ， 这 个 字段 的 作用 是 什么 ”在 IPv6 中 是 否 也 有 相应 的 字段 ? 

20.， 给 出 一 个 6000 字 节 的 焉 分 组 ， 假 设 分 组 是 通过 以 太 网 传输 的 。 分 别 解释 在 IPv4 和 1Pv6 中 它 是 如 何 分 段 


的 〈 你 应 该 清楚 地 说 明 ， 会 产生 多 少 分 段 、 每 一 帧 的 大 小 ， 以 及 在 每 个 IP 头 部 中 如 何 相应 地 进行 设置 ) 
21， 讨 论 在 虚 电 路 子 网 (如 IP over ATM) 上 建立 无 连接 服务 的 难点 


22. ARP 缓存 时 间 到 期 值 是 如 何 影响 其 性 能 的 ? 


2 觉 子 章 


30. 


31. 
32. 
33. 


34. 


33. 
36. 
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38. 





在 一 个 子 网 内 广播 ARP 请 求 以 获得 同一 子 网 内 主机 的 MAC 地 址 。 使 用 ARP 请 求 获得 子 网 外 的 一 台 远 
程 主机 的 MAC 地 址 是 否 有 意义 ? 
如 果 入 侵 者 使 用 一 台 DHCP 欺骗 设 备 在 真正 DHCP 服务 器 做 出 应 答 之 前 发 送 对 DHCP 请 求 的 应 答 ， 会 
发 生 什 么 后 果 ? 

- 台 攻 击 设备 不 断 地 从 一 台 真 正 的 DHCP 服务 上 器 通过 不 断 变 化 的 MAC 地 址 来 请 求 下 地 址 ， 是 否 可 能 ? 
(提示 : 这 就 是 所 谓 的 DHCP 饥饿 问题 ,) 
BOOTP 和 DHCP 之 间 的 区 别 是 什么 ”为 什么 DHCP 是 基于 BOOTP 设计 的 ? 


. 设 A 是 一 全 具有 私有 IP 的 主机 ,通过 NAT 服务 融 连 接 到 互联 网 上 。 主机 A 所 在 子 网 以 外 的 主机 能 够 


十 程 登 录 (telnet) 到 A 吗 ? 


.为 什么 NAT 会 成 为 P2P 应 用 的 问题 ? 我 们 需要 为 对 称 NAT (symmetric NA) 和 非 对 称 NAT ( cone 


NAT) 提供 不 同 的 解决 方案 吗 ? 


- 考虑 下 面 的 局 域 网 ， 具 有 一 台 以 太 网 交换 机 S， 一 台 域 内 路 由 器 R 和 两 台 主 机 X 和 Y。 假设 交换 机 S 


已 经 通电 

a 当 X 向 YY 发送 正 分 组 时 ， 描 述 在 X、Y 和 S 上 执行 的 路 由 和 地 址 解析 步 又。 

b， 描述 当 Y 向 X 应 答 正 分 组 时 , 在 X、Y 和 S 执行 的 路 由 和 地 址 解析 步 又 。 

c， 当 向 域外 的 一 台 主 机 发 送 IP 分 组 时 ， 描 述 在 X、S 和 R 上 执行 的 路 由 和 地 址 解析 步骤 (提示 ; 


不 要 忘记 解释 X 如 何 知 道路 由 器 Re。) 
以 太 网 


[s| 
以 太 网 


® OO 


区 虑 以 下 的 网 络 拓扑 结构 。 说 明 节点 A 分 别 使 用 链接 状态 路 由 、 距 离 矢 量 路 由 ， 如 何 构造 其 路 由 表 . 

















继续 第 30 题 。 现 在 假设 链 路 A 一 B 发 生 故 障 。LS 和 DV 路 由 将 如 何 应 对 这 种 变化 ? 

比较 LS 和 DV 路 由 的 消息 复杂 性 和 收敛 速度 。 

假设 对 所 有 链 路 成 本 ,已 知 有 一 个 正 的 下 界 。 设 计 一 种 新 的 链 路 状态 算法 ， 在 每 次 迭代 时 它 可 以 将 多 
个 节点 添加 到 集合 Y 中 。 

距离 矢量 路 由 算法 既 被 域内 路 由 (如 RIP) 也 被 域 间 路 由 (如 BGP) 所 采用 ， 但 是 以 不 同 的 重点 和 附 
加 功能 来 实现 的 。 当 它们 都 使 用 距离 矢量 算法 时 ， 试 比较 域内 路 由 和 域 间 路 由 之 间 的 差异 。 

路 由 循环 是 RIP 中 的 一 个 问题 。 为 什么 在 BGP 中 就 没有 这 个 问题 ? 

链 路 状态 路 由 和 距离 矢量 路 由 之 间 的 主要 区 别 是 什么 ”距离 矢量 算法 的 稳定 性 问题 是 什么 ， 对 这 些 问 
题 的 可 能 解决 方案 是 什么 ? 

如 果 路 由 的 目标 是 找到 最 大 可 用 带宽 路 径 〈 称 为 最 宽 的 路 径 ) ， 那 么 我 们 应 该 如 何 定义 链 路 成 本 ”在 
计算 路 径 成 本 时 需要 改变 什么 ? (不 只 是 将 链 路 成 本 添加 到 路 径 成 本 中 1) 

何 请 最 长 前 级 匹配 ?为 什么 路 由 器 要 使 用 最 长 前 级 匹配 ”这 仍 将 是 IPv6 中 的 问题 吗 ? (为 什么 是 或 者 
不 是 ， 证 明 你 的 答案 ,) 
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39， 为 多 媒体 应 用 提供 Qo05， 曾 经 需要 人 研究 QoS 路 由 (但 没有 成 功 ) 。 考 虑 一 个 需要 恒定 位 速率 传输 的 视频 
流 应 用 。 我 们 如 何 为 这 种 应 用 执行 QoS 路 由 ?解释 如 何 定 义 链 路 成 本 函数 ， 如 何 从 链 路 成 本 计算 路 径 
成 本 、 路 由 决策 的 粒度 、 应 用 协议 和 QoS 之 间 的 相互 作用 。 

ee Wh a a td 描述 如 何 将 组 播 分 组 封装 到 单 播 分 组 中 ,在 隧道 另 一 端的 
mrouter 如 何 知道 它 是 一 个 封装 的 分 组 ? 

41. 由 于 了 组 播 地 址 分 配 没有 集中 控制 ， 如 果 它 们 随机 选择 地 址 ,那么 两 组 用 户 选 择 相同 组 播 地 址 的 概率 

42. 考虑 IGMP 协议 的 操作 ， 当 一 台 路 由 器 (查询 者 ) 向 其 子 网 内 的 一 台 路 由 器 发 送 特定 组 查询 消息 时 ， 
如 果 有 许多 用 户 的 组 播 组， 那么 如 何 抑制 ACK (报告 消息 ) 爆炸 问题 ? 

43， 在 IGMPv3 中 ， 我 们 如 何 从 特定 源 预 定 组 播 分 组 ? 

44. DVMRP 能 够 最 小 化 到 每 个 目的 地 所 使 用 的 网 络 带 宽 或 端 到 端 延迟 吗 ” 节 点 会 接收 相同 分 组 的 多 个 副本 
吗 ? 如 果 是 ， 建 议 一 个 使 所 有 节点 仅 收 到 一 份 的 新 协议 副本 。 

45，PIM 包括 两 种 模式 : 密集 模式 和 稀 朴 模式 。 这 两 种 模式 之 间 的 差异 是 什么 ?为 何 定义 这 两 种 模式 ? 

46. 在 PIM-SM 中 ， 路 由 器 如 何 知道 在 哪里 可 以 为 组 播 组 新 加 入 的 成 员 找到 RP? 

47.， 当主 机 向 组 播 组 发 送 分 组 时 ， 由 指定 路 由 器 在 DVMRP 和 PIM-SM 下 处 理 分 组 有 何不 同 ? 

48. 具有 最 小 成 本 的 组 播 树 称 为 Steiner 树 。 为 什么 在 IETF 的 RFC 建议 中 没有 任何 协议 尝试 构建 一 棵 Stei- 
ner 组 播 树 ? 

49. 一 般 情 况 下 ， 我 们 认为 一 个 基于 源 的 树 的 成 本 应 小 于 基于 共享 的 树 的 成 本 。 你 同意 还 是 不 同意 ”为 什 

么 ? 构建 一 个 反例 证 明基 于 源 的 树 的 成 本 实际 上 大 于 基于 共享 的 树 的 成 本 ， 

50， 说 明 在 以 下 网 络 折 扑 下 ，DVMRP 构建 的 组 播 树 。 
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| Computer Networks: An Open Souree Approach 


传输 层 


传输 层 又 称 为 端 到 端 协议 层 ， 就 像 是 整个 互联 网 协议 秘 的 接口 一 樟 ， 为 应 用 程序 提供 端 色 端的 服 
务 ， 第 3 深 的 重点 放 在 链 路 层 ， 它 在 直接 链接 起 来 的 节点 之 问 提供 节点 到 节点 的 单 刺 通信 信道 。 在 第 3 


演出 现 像 “ 多 快 地 发 送 数 据 ?”” 和 “数据 能 够 正确 地 到 达 连 接 到 同一 有 线 或 无 线 链 路 上 的 接收 者 吗 ?” 
这 样 的 问题 并 得 到 解答 。 在 IP 层 提供 穿越 五 联 网 的 主机 到 主机 的 多 跳 通 信人 信道 - 在 第 4 草山 会 产生 与 
由 层 相 类 似 的 问题 并 得 到 解答 ， 接 下 来 ， 因 为 在 一 台 主 机 上 可 能 运行 多 个 应 用 进程 ， 所 以 传输 层 将 在 
末 联 网 上 不 同 主机 的 应 用 进程 之 间 提 供 进 程 到 进程 的 通信 信道 。 传输 层 提 供 的 服务 包括 : 1) 寻 址 ; 
2) 差错 控制 ; 3) 可 靠 性 ; 4) 速率 控制 寻 址 服务 确定 一 个 数据 包 属 于 哪个 应 用 进程 ; 如 果 接 收 到 
的 数据 是 有 效 的 ， 就 要 通过 差错 控制 的 检测 ; 可 靠 性 服务 保证 传输 的 数据 色 达 其 目的 地 ;为 了 流量 控 
制 和 网 络 拥 塞 控制 ， 速 率 探 制 调节 发 送 方 应 多 快 地 将 数据 传送 接收 方 

广泛 的 应 用 程序 会 有 各 种 不 同 的 需求 ， 传 输 屋 应 该 提供 什么 服务 是 一 个 大 问题 。 随 着 时 间 的 推移 
传输 协议 已 经 演变 成 了 两 个 主要 协议 : 复杂 的 传输 控制 协议 (TCP) 和 原始 的 用 户 数 据 报 协议 
(UDP)。 尽管 TcP 和 UDP 利用 相同 的 寻 址 方案 和 类 似 的 差错 控制 方法 ， 但 它们 在 可 靠 性 和 速率 控制 上 
的 设计 存在 很 大 的 区 别 : TCP 实现 了 了 上述 所 有 的 服务 ,但 UDP 则 完全 忽略 了 可 靠 性 和 速率 控制 服务 
由 于 其 复杂 的 服务 ，TCP 知 要 首先 在 通信 主机 之 间 建 立 一 条 端 到 端 边 辑 连 接 (也 加 是 说 ， 它 是 面向 连 
接 的 ) ， 并 在 终端 主机 保持 必要 的 每 个 连接 或 每 个 流 的 状态 信息 ( 即 ， 它 是 有 状态 的 ) 。 这 种 而 向 连接 
的 和 有 状态 的 设计 目的 就 是 为 了 实现 每 个 流 的 可 靠 性 和 特定 的 进程 到 进程 信道 的 速度 控制 ， 另 一 方面 ， 
UDP 是 无 状态 的 和 无 连接 的 ， 不 十 要 建立 一 条 连接 行使 其 寻 址 和 差错 控制 方案 

为 了 能 够 支持 运行 实时 传输 的 应 用 ，TCP 或 UDP 所 提供 的 服务 由 于 缺乏 通信 主机 之 间 的 定时 和 回 
步 信息 是 有 局 限 性 和 不 足 的 ,因此 ,大 多 数 实 时 应 用 经 常会 在 原始 的 UDP 之 上 上 集成 一 个 知 外 的 协议 
层 ， 以 提高 服务 质量 .为 了 实现 该 日 的 ， 有 一 对 标准 协议 分 别 是 :实时 传输 协议 (RTP) /实时 控制 协 
议 (RTCP)。 这 对 协议 提供 音频 和 视频 流 之 间 的 同步 、 数 据 斥 缩 和 解 不 缩 的 信息 ， 以 及 路 径 质量 的 统 
计 (数据 包 盏 失 率 ， 端 到 端的 延迟 及 其 变化 ) 等 服务 

由 于 传输 层 与 应 用 层 直接 看 合 ， 所 以 古 联 网 套 接 字 营 简称 为 套 接 字 ， 充 泊 程 序 员 访 问 五 联网 协议 
簇 底 层 服 务 的 一 个 重要 应 用 编程 接口 (APT)， 人 然而 ，TCP 和 UDP 套 接 字 接 口 不 只 是 由 应 用 层 访 问 。 应 
用 程序 可 以 绕 过 传输 层 直 接 使 用 IP 层 或 链 路 层 提 供 的 服务 ， 稍 后 我 们 将 讨论 Linux 程序 员 如 何 通过 各 
种 套 接 字 接口 访问 传输 层 以 下 的 1P 层 其 至 链 路 层 的 服务 . 

本 章 的 组 织 结构 如 下 : S.1 季 说 明 传输 层 的 端 到 端 问题 ， 并 将 它们 与 链 路 层 的 问题 进行 比较 53. 2 
季 和 5.3 节 描 述 互 联网 如 何 解 决 传输 层 的 问题 。5.2 节 说 明 原 始 的 传输 层 协 议 UDP， 它 提供 了 基本 的 
进程 到 进程 的 通信 信道 和 差错 控制 ，$. 3 节 重 点 介绍 广泛 使 用 的 传输 层 协 议 TCP， 它 使 应 用 不 仅 具 有 进 
时 到 进程 的 通信 信道 和 差错 控制 ， 击 且 具 有 可 靠 性 和 速率 控制 。 到 上 日 前 为 止 ， 讨论 过 的 互联 网 协议 簇 
服务 包括 那些 在 第 3 、4 、5 瘟 中 的 内 容 ， 应 用 程序 员 可 以 通过 各 种 套 接 学 接 口 直接 访问 。5.4 节 介 绍 了 了 
实现 套 接 字 接口 的 Linux 方法 。 然 而， 由 于 实时 应 用 中 的 额外 软件 层 ， 通 常 舱 入 协议 RTPZRTCP 作为 
应 用 程序 中 的 库 画 数 。5.5 节 介 绍 了 应 用 层 如 何 采 用 RTPARTCP 协议 

在 本 童 结束 时 ， 迹 者 应 该 能 够 回答: 1) 为 什么 将 互联 网 协议 簇 的 传输 层 设计 成 今天 这 样 的 方式 ; 
2) Linux 如 何 实 现 传输 层 协 议 ， 


5. 1 ”一般 问题 
运输 层 或 端 到 端 梁 议 ， 顾 名 思 义 ,定义 通信 信道 的 终点 之 间 传 输 数 据 的 协议 。 计 :我 们 首先 定义 贯 


罕 本 曹 所 使 用 的 一 些 术 语 ; 在 操作 系统 之 上 运行 的 应 用 程序 就 是 一 个 进程 ,在 传输 层 的 数据 传输 单元 
简称 为 分 段 ， 在 进程 到 进程 的 信道 中 流动 的 通信 和 量 为 流 。 传 输 层 中 最 明显 的 服务 是 向 应 用 进程 提供 进 








傣 纷 层 





程 到 进程 的 通信 信道 。 由 于 在 一 台 主 机 上 可 能 同时 运行 了 多 个 进程 所 以 在 进程 到 进程 信道 的 帮助 下 . 
在 互联 网 上 的 任何 一 台 主 机 上 运行 的 任何 进程 都 能 够 彼此 通信 。 进程 到 进程 信道 的 有 关 问 题 与 第 3 童 
中 节点 到 节点 信道 的 有 闫 问题 相 类 似 。 一 般 情况 下 ， 传 输 层 通 过 进程 到 进程 通信 加 上 以 每 个 分 段 为 基 


础 的 差错 控制 和 以 每 个 流 为 基础 的 可 靠 性 控制 来 解决 连通 性 震 求 . 它 通 过 对 每 个 流 强制 速率 控制 解决 


了 资源 共享 需求 


5. 1.1 节点 到 节点 与 端 到 端 

通过 进程 到 进程 信道 的 通信 ， 第 3 章 中 出 现 过 的 经 典 问题 会 再 次 出 现 ， 但 曾经 的 解决 方案 却 不 适 
用 于 这 里 。 如 图 5-1 所 示 ， 单 跳 节 点 到 节点 与 多 跳 进程 到 进程 信道 之 问 的 主要 区 别 在 于 延迟 分 配 。 延 
迟 是 从 一 端 主机 传输 到 另 一 端 主机 通过 信道 的 时 间 延 以 。 在 第 3 章 中 ， 可 靠 性 和 速率 控制 问题 很 容易 
解决 ， 因 为 直接 相连 的 主机 之 间 的 延迟 分 布 非常 集中 地 位 于 一 定 值 的 范围 内 ， 有 具体 取决 于 所 选择 的 链 
路 层 技 术 。 相 反 ， 进 程 到 进程 信道 的 延迟 很 大 ， 可 能 有 很 大 的 变化 ， 所 以 在 传输 层 中 的 可 靠 性 和 速率 
控制 算法 应 该 容纳 大 的 延迟 和 很 大 的 延迟 变化 〈 通 常 称 为 抖动 ) : 
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节点 到 节点 信道 进程 到 进程 信道 
O :服务 接 入 点 

图 $-1 单 跳 和 多 跳 信道 之 间 的 区 别 
表 5-1 介绍 了 单 跳 信道 上 的 链 路 层 协议 与 多 跳 信道 上 的 传输 协议 之 间 的 详细 比较 。 传 输 协 议 在 IP 
层 之 上 提供 服务 ， 而 链 路 协议 在 物理 层 之 上 提供 服务 。 因 为 在 链 路 上 可 能 连接 了 多 个 节点 ， 所 以 链接 
层 通 过 定义 节点 地 址 (MAC 地 址 ) 来 确定 在 直接 链 路 于 的 节点 到 节点 通信 人 信道。 同样， 在 每 端的 主机 

上 可 能 运行 多 个 进程 ， 因 此 传输 层 定义 端口 号 来 说 明 主 机 上 的 进程 。 

表 5-1 链 路 层 协议 与 传输 层 协议 之 间 的 比较 
I 
传输 层 协 议 





























链 路 层 协议 
基于 何 种 服务 物理 链 路 中 层 
链 路 内 的 节点 到 节点 信道 主机 之 间 的 进程 到 进程 信道 
(有 由 MAC 地 址 表示 ) (由 端口 号 表示 ) 
服务 差错 控制 “| 。 按 由 按 分 段 
可 靠 性 | 。 按 链 路 按 流 
速率 控制 “| 按 链 路 按 流 
信道 延迟 密集 分 布 扩散 分 布 
寻 址 


在 传输 层 上 的 寻 址 相当 简单 ， 我 们 只 需要 使 用 一 个 唯一 的 标识 号 标记 运行 在 本 地 主机 上 的 每 个 进 
旦 。 因 此 ， 进 程 地 址 的 长 度 与 链 路 层 或 网 络 层 地 址 相 比 应 该 尽量 短 ， 本 地 主机 操作 系统 可 以 局 部 地 分 
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配 进 程 地 址 。 正 如 我 们 将 要 在 本 章 中 学 习 到 的 ， 互 联网 解决 方案 使 用 一 种 16 位 端口 号 作为 进程 地 址 。 
一 个 特定 应 用 程序 的 端口 号 既 可 以 是 一 个 众所周知 的 被 全 球 所 有 主机 使 用 的 端口 号 ， 也 可 以 是 由 本 地 
主机 动态 分 配 的 任何 可 用 的 端口 号 


5. 1.2 差错 控制 和 可 靠 性 

差错 控制 和 可 靠 性 对 端 到 端 通信 非常 重要 ， 因 为 互联 网 偶尔 会 于 人 弃 、 重 新 排序 或 者 重复 发 送 分 组 
差错 控制 主要 对 一 个 传输 数据 单元 内 的 位 错误 进行 检测 或 恢复 ,不 管 它 是 一 个 帧 还 是 一 个 分 段 ， 可 靠 
性 邦 能 够 进一步 提供 重 发 机 制 来 恢复 可 能 丢弃 的 或 没有 止 确 接收 的 数据 单元 。 表 5-1 说 明 链 路 层 协议 
采用 基于 帧 的 差错 控制 方法 ， 而 传输 层 协 议 采 用 基于 分 段 的 差错 控制 。 在 链 路 层 协 议和 传输 协议 中 使 
用 的 错误 检测 通常 分 别 是 循环 元 余 校 验 (CRC) 和 校 验 和 。 正 如 3.1.3 节 所 述 ，CRC 在 多 位 错误 检测 
中 网 强大 并 且 更 容易 在 硬件 中 实现 ， 而 传输 层 协议 中 的 校 验 和 只 能 充当 一 种 在 节点 处 理 数 据 时 发 生 的 
入 点 错误 的 复查 

为 了 可 靠 传输 ， 端 到 端 协议 提供 每 个 流 的 可 靠 性 控制 ， 但 是 大 多 数 链 路 层 协议 ， 如 以 太 网 和 PPP， 
没有 在 其 机 制 中 加 入 重 传 功能 。 它 们 将 重 传 的 任务 留 给 它们 的 上 层 协议 来 完成 。 然 而 ， 有 些 链 路 协议 ， 
如 WLAN， 工 作 在 可 能 发 生 严 重 帧 损失 的 环境 下 ， 所 以 这 些 链 路 协议 都 内 著 了 可 靠 性 机 制 ， 以 提高 由 
于 上 上 层 协议 频繁 地 重 传导 致 的 效率 低下 。 例如， 来 和 月 传输 层 的 巨大 的 流出 分 段 在 JP 层 分 为 10 个 分 组 
后 ， 然 后 会 在 WLAN 形成 10 个 帧 ，WLAN 可 以 可 靠 地 传输 10 个 帧 而 不 用 采用 所 有 分 段 的 端 到 端 重 传 
因此 ， 与 没有 内 置 可 靠 性 机 制 的 无 线 局 域 网 情况 相 比 ， 整 个 帧 具有 更 低 的 重 传 概率 

延 述 分 布 对 于 可 靠 地 传输 也 很 重要 ， 因 为 它 影 响 重 传 定时 器 的 设计 。 如 图 5-1 所 示 ， 链 路 信道 的 
延 让 分 布 集中 于 其 一 个 值 的 周 辣 ， 所 以 将 链接 信道 的 重 传 定 时 器 设置 为 经 过 一 个 固定 时 间 段 的 超时 ， 
如 10 侣 秒 是 恰当 的 。 但 是 ， 由 于 端 到 端 信道 的 扩 茹 延迟 分 布 ， 所 以 将 这 种 技术 应 用 到 传输 层 会 出 现 很 
多 问题 。 例 如， 在 图 5-1 中 ， 如 果 我 们 为 端 到 端 信道 设置 超时 值 为 150 毫秒 ， 那 么 某 些 分 段 会 错误 地 
重 发 ， 网 络 会 因此 而 包含 许多 重复 的 分 段 ， 但 是 如 果 我 们 设置 超时 值 为 200 毫秒， 丢弃 的 分 段 不 会 重 
发 ， 直 到 这 个 长 等 待定 时 器 到 期 为 止 ， 最 终 导致 差 的 性 能 。 所 有 这 些 权衡 都 会 影响 链 路 和 端 到 端 信道 
的 设计 选择 


5. 1.3 速率 控制 : 流量 控制 和 拥塞 控制 

速率 控制 包括 流量 控制 和 拥塞 控制 ， 在 传输 层 协议 中 起 着 比 链 路 层 协议 更 重要 的 作用 ， 因 为 传 
输 层 协议 所 运行 的 广域网 环境 比 链 路 层 协 议和 运行 的 局 域 网 环境 复杂 得 多 。 流 量 控制 仅 运 行 在 源 和 目 
的 地 之 间 ， 而 拥塞 控制 运行 在 源 和 目的 地 网 络 之 间 。 也 就 是 说 ， 网 络 中 的 拥塞 能 够 通过 拥塞 控制 而 
得 到 缓解 ， 但 不 能 通过 流量 控制 得 到 缓解 。 在 链 路 层 协议 中 没有 拥塞 控制 ， 因 为 发 射 机 离 接收 器 只 
有 一 跳 

拥塞 控制 既 可 以 由 发 送 者 也 可 以 由 网 络 来 完成 。 基 于 网 络 的 拥 赛 控制 在 中 间 路 由 器 上 上 采用 各 种 排 
队 规则 和 调度 算法 ， 以 避免 网 络 拥塞 。 基 于 发 送 者 的 拥塞 控制 依赖 于 每 个 发 送 者 的 自我 控制 ， 以 避免 
太 快 发 送 太 多 的 数据 到 网 络 中 然而 ， 基 于 网 络 的 拥塞 控制 ， 超 出 了 本 章 的 范围 ， 将 在 第 7 章 中 讲解 

在 文献 中 ,流量 控制 或 拥塞 控制 机 制 都 可 分 为 成 基于 窗口 的 和 基于 速率 的 。 基 于 窗口 的 控制 是 通 
过 控制 能 够 同时 传输 的 未 经 确认 的 分 组 的 数量 来 调节 发 送 速率 。 一 个 未 经 确认 的 分 组 代表 已 发 送 的 分 
组 ,但 还 没有 返回 对 它 的 确认 。 男 一 方面 ， 当 基于 速率 控制 的 发 送 者 收 到 明确 通知 它 应 该 多 快 地 发 送 
时 ， 它 直接 调整 其 发 送 速率 

实时 需求 

既然 实时 应 用 需要 额外 的 信息 构 奸 播放， 那么 除了 上 述 外 还 应 该 提供 其 他 额外 的 支持 。 它 们 可 能 
包括 音频 和 视频 流 之 间 的 同步 、 数 据 压缩 和 解压 缩 信 息 ， 以 及 路 径 质 量 统 计 值 (分 组 丢失 率 、 端 到 端 
延迟 及 其 变化 )， 为 了 支持 这 些 额 外 的 需求 ， 所 有 需要 的 额外 信息 ， 如 时 间 苓 、 编 解码 器 类 型 、 分 组 于 
失 率 ， 就 必须 在 协议 消息 头 部 中 携带 。 由 于 TCP 和 UDP 在 其 头 部 中 没有 这 些 字 段 ， 所 以 就 需要 其 他 传 
输 协 议 来 满足 实时 的 需求 
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5. 1.4 标准 编程 接口 

网 络 应 用 程序 通常 通过 套 接 字 编 程 接口 访问 底层 服务 。 大 多 数 应 用 程序 运行 在 TCP 或 UDP 之 上 ， 
具体 根据 它们 是 否 需 要 可 靠 性 和 速率 控制 来 决定 是 通过 TCP 套 接 字 还 是 UDP 套 接 字 访问 底层 服务 。 不 
过 ， 还 有 其 他 的 应 用 程序 ， 需 要 绕 过 传输 层 直接 访问 IP 层 ， 如 果 它 们 需要 读 或 写 IP 头 部 ， 有 的 甚至 
还 要 访问 链 路 层 直 接 读 或 写 链 路 层 的 头 部 ， 应 用 程序 可 以 分 别 通过 数据 报 套 接 字 和 原始 套 接 字 分 别 访 
问 IP 层 和 链 路 层 

BSD 套 接 字 接口 语义 已 成 为 大 多 数 操作 系统 中 最 广泛 使 用 的 模板 ， 与 传输 层 接口 (TLID) 套 接 字 及 
其 标准 化 版 本 X/Open TI (CXTI 的 ) 相 比 ， 两 者 都 是 为 AT&T 公司 的 UNIX 系统 开发 的 。 随 着 套 接 字 编 
程 接口 的 标准 化 ， 应 用 程序 能 够 运行 在 支持 该 标准 的 各 种 操作 系统 之 二 。 然 而， 开发 人 员 经 常 发 现 套 
接 字 应 用 程序 仍然 需要 花费 努力 进行 移植 ， 例 如 ， 即 使 是 已 经 在 Linux 上 上 成功 运 行 的 应 用 程序 要 想 运 
行 在 BSD 上 ， 市 它 与 Linux 不 同 之 处 仪 在 于 错误 处 理 函 数 。 


5. 1. 5 传输 层 分 组 流 
在 分 组 传输 期 间 ， 传 输 层 通过 套 接 字 接 口 接收 来 自 应 用 层 的 数据 ， 利 用 TCP 或 UDP 头 部 封装 数 


据 ， 并 将 结果 分 段 传递 到 全 层 。 一旦 接收 到 分 组 ， 传 输 层 就 从 下 层 接 收 分 段 ， 删 除 TCP 或 UDP 头 部 ， 
并 且 将 数据 传递 到 应 用 层 。 详 细 的 分 组 流 在 开源 实现 5. 1 中 说 明 。 





开源 实现 5.1; 调用 图 中 的 传输 层 分 组 流 

概述 

传输 层 包 括 一 个 与 IP 层 的 接口 和 一 个 与 应 用 层 的 接口 。 如 第 3 章 和 第 4 章 中 所 述 ， 我 们 将 通过 接 
收 路 径 和 传输 路 径 学 习 这 两 个 接口 。 在 接收 路 径 中 ， 从 IP 层 接收 分 组 ， 然 后 传递 到 应 用 层 协议 。 在 传 
输 路 径 中 ， 从 应 用 层 接收 分 组 ， 然 后 传递 到 IP 层 ; 

数据 结构 

有 两 种 数据 结构 ， 分 别 为 sk_buff 和 sock， 包 括 在 分 组 处 理 流 中 的 几乎 每 一 个 函数 调用 中 。 前 
者 定义 在 include/1linux/skbuff.h 中 ， 已 经 在 第 1 章 中 介绍 过 ; 而 后 者 的 定义 可 以 在 include/ 
linux/net/sock.h 中 找到 。 例 如 ，TCP 流 的 sock 结构 主要 和 包括 一 个 指向 结构 tcp _seck 的 指针 ， 
它 保 持 了 大 多 数 必 需 的 变量 以 便 运行 TCP， 如 用 于 RTT 估算 的 srtt 或 者 用 于 窗口 拥塞 控制 的 snd_ 
wnd。sock 还 包括 两 个 队列 结构 sk _ receive queue 和 sk write queue， 分 别 用 于 排队 从 IP 层 接 
收 到 的 分 组 和 将 要 发 送出 去 的 分 组 此外，sock 还 保存 了 多 个 到 回调 函数 的 指针 ， 以 便 通 知 应 用 层 有 
等 待 接 收 的 新 的 可 用 的 数据 或 者 有 新 的 内 存 空 间 可 以 填充 


调用 图 
如 图 5-2 所 示 ， 当 传输 层 从 IP 层 接收 一 个 分 组 时 ， 分 组 保存 在 一 个 skb 中 并 根据 IP 头 部 中 的 协议 
标识 符 传递 到 下 列 三 个 函数 之 一 : raw V4 input ()、udp rcv()、tcp v4 rcv()。 然 后 ， 每 个 协议 


具有 自己 的 关联 查找 函数 ， raw v4 lookup () .udp v4 lookup () 、inet lookup ()， 查 询 对 应 于 
分 组 的 sock 结构 。 通 过 sock 结构 中 的 信息 ， 传 输 层 就 能 识别 到 达 分 组 属于 哪个 流 。 然 后 ， 接 收 到 的 
分 组 通过 skb _ queue tail () 插入 到 流 队 列 中 。 

通过 sk- > sk data ready () ， 就 通知 该 流 所 属 的 应 用 程序 有 数据 可 以 接收 。 接 下 来 ， 应 用 程序 
调用 read () 或 recvfrom() 从 sock 结构 中 获得 数据 ， 函数 recvfrom 和 触发 一 系列 的 函数 调用 ， 最 后 
利用 skb_dequeue () 将 数据 从 相应 流 的 队列 中 移 除 到 skb 空间 中 ， 然 后 调用 skb copy datagram 
iovec () 将 数据 从 内 核 空 间 内 存 复 制 到 用 户 空 间 内 存 。 

接 下 来 ， 图 5$-3 显示 了 一 个 外 出 分 组 的 调用 图 。 当 应 用 程序 计划 向 互联 网 发 送 数据 时 ， 它 调用 
write() 或 sendto ()， 然 后 再 根据 创建 套 接 字 时 指定 的 协议 调用 raw sendmsg ()、udp sendmsg 
() 或 tcp senqmsg ()。 对 于 原始 或 UDP 套 接 字 ， 调 用 ip append data()。 然 后 ， 调 用 sock al- 
loc send skb () 和 ip generic getfrag() 分 别 在 内 核 空 间 内 存 中 分 配 skb 缓存 ， 并 将 数据 从 用 
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sys_socketcall sys_read 
sys_recvfrom vfs_read 

sock_recvmsg do_sync_read 

__ Sock_recvmsg sock_aio_read 

a Sock_common_recvmsg do_sock_read 

raw_recvmsg (sk,buf) udp_recvmsg (sk.buN) .ee 

skb_recvdatagram tcp_recvmsg(sk.but) 
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_skb_queue_lail(sk->sk_receive_queue. skb) 





socket gqucue rev_skb(sk,skb) ep tn nae 


raw_rey_skb(sk.skb) tcp_rcv_established 


raw_rev(sk,skb) udp_queue_rev_skb(sk.skb) tcp_v4_do_rev(sk,skb) 


sk= raw_v4 lookup(skb) sk=udp_v4 lookup(skb) sk=inet_lookup(skb) 


raw_v4_input(skb) udp_rcv(skb) tcp_v4_rev(skb) 
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io_local_deliver_finish 网 络 层 
网 5-2 传输 层 中 进入 分 组 的 调用 图 
应 用 层 sendo write SS 
sys_socketcall on i 
sys_sendto vis_write 
sock_sendmsg do_sync_write 
inet_sendmsg sock_aio_write 
raw_sendmsg(sk.bu udp_sendmsg(sk.buf) do_sock_write 
ip_append_data(sk,buf) sock_sendmsg 
skb=sock_wmalloc(sk) Skb=sock_alloc_send_skb(sk) inet_sendmsg 
ip_generic getfrag tcp_sendmsg(sk.buf) 


skb_queue tail(&sk->sk_write_queue,skb) 





$ 站 
~ udp_push_pending_frames tcp_push 
~ 
ip_push_pending_frames _ tcp_push_pending_frames 


tcp_wnite_xmit 
tcp_transmit_skb 


dst output <— ip_queue_xmit 


Pn eA skb->dst->output 传输 层 
> 2 a 
ip_output 网 络 层 


图 5-3 传输 层 中 外 出 分 组 的 调用 图 
内 存 中 复制 到 skb 缓存 中 。 最后， 将 skb 插入 到 sock 结构 的 sk_write queue 中 。 另 一 方面 ，ip 
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push pending frame () 重复 地 从 队列 中 删除 数据 ， 然 后 将 它们 转发 到 IP 层 。( 同样， 对 于 CP 套 接 
字 , 使 用 tcp sendmsg() 和 skb _ add data() 分 别 从 队列 中 清除 队 尾 skb 并 将 数据 复制 到 内 核 内 存 
中 。 如果 写 入 的 数据 量 大 于 尾部 skb 提供 的 空间 ， 那 么 由 sk stream alloc page () 在 内 核 空 间 内 
存 中 分 配 一 个 新 的 skb 缓存 ， 最后， 调用 ip queue xmit () 通 过 ip output () 函数 将 数据 从 





sk Write queue 转发 到 IP 层 。 

练习 

1. 利用 如 图 5-3 所 示 的 调用 图 ， 就 可 以 追踪 udp sendmsg () 和 tcp sendmsg ()， 了 解 这 些 吧 
是 如 何 实 现 的 ? 

2.， 解释 在 tcp sendmsg () 中 两 个 大 的 “while” 和 循环 目 的 是 什么 。 为 什么 这 样 的 循环 结构 未 出 现 
在 udp sendmsg () 中 ? 


数 


了 


5.2 不 可 靠 的 无 连接 传输 : UDP 

用 户 数 据 报 协 议 (UDP) 是 一 个 不 可 靠 的 无 连接 的 传输 协议 ,不 提供 可 靠 性 和 速率 控制 。 这 是 一 
个 无 状态 的 苏 以 ， 一 个 分 段 的 发 送 或 接收 独立 于 其 他 任何 一 个 分 段 ， 尽 管 UDP 提供 差错 控制 ， 但 它 是 
可 选 的 ,由 于 其 简单 而 不 重 传 的 设计 ， 许 多 可 靠 性 不 是 ,那么 重要 的 实时 应 用 全 采用 RTP 通过 UDP 传输 
实时 或 流 式 数 据 。 近 年 来 ， 对 等 应 用 使 用 UDP 协议 向 对 等 发 送 大 量 的 查询 ， 然 后 再 使 用 TCP 与 选 定 对 
象 交换 数据 ，UDP 提供 最 简单 的 传输 服务 : 1) 进程 到 进程 通信 信道 ; 2) 每 个 分 段 的 差错 控制 。 


5.2.1 头 部 格式 
UDP 头 部 仅 有 两 个 功能 : 寻 址 和 错误 检测 。 它 包括 四 个 人 字段: 源 和 目的 端口 号 、UDP 长 度 和 UDP 
校 玲 和 ， 如 图 5-4 所 示 。 为 了 让 环 联 网 中 位 于 不 同 主机 二 的 两 个 应 用 进程 提供 一 个 通信 和 信道， 每 个 进 
Le 唯一 局 部 端口 号 绑 定 ， 昌 然 每 台 主 机 独立 地 处 理 端 巾 与 进程 的 绑 定 ， 但 
经 溃 使 用 的 服务 器 进程 (如 及 W) 与 众所周知 的 固定 端口 号 很 有用。 通过 众所周知 端口 就 可 以 访 
epee 但 是 ， 窝 户 端 进程 的 端口 号 是 随机 选择 绑 定 的 ,不 必 是 众所周知 的 








源 端 口号 目的 端口 号 
UDP 校 验 和 (可 选 ) 





数据 (如果 有 ) 








图 5-4 UDP 数据 报 格式 
源 /的 端 电 区， 在 P 头 部 中 与 源 和 日 的 I 地址 、 协 议 标识 符 (指示 TCP 或 UDP) 结合 起 来 ， 形 


成 一 个 5 元 组 的 套 接 字 对 ， 总攻 为 32 x16 x2+2+8=104 位 由于 I 地 址 是 爹 局 唯一 的 ， 市 端口 吕 是 
林地 唯一 的 ， 央 此 5 元 组 也 唯一 地 标识 一 个 进程 色 进 程 通信 信道 的 流 。 换 名 话说 ， 问 一 个 流 中 的 分 组 
具有 和 由 四 的 S 元 组 值 ， 在 Pv6 分 组 中 ,IP 尖 部 中 的 “流标 识 符 ”每 段 证 羽 为 流 其 识 别 设计 的 。 广 意 ， 
俯 接 宁 对 足 全 双 工 的 ， 这 意味 着 可 以 同时 在 两 个 方向 上 通过 套 接 宁 连 接 传 输 数 据 - 在 图 5-1 中 ， 从 应 
川 进程 AI 流 吕 的 分 组 从 其 源 奖 由 流 回 绑 定 介 应 用 进程 AP3 的 日 的 端口， 主机 霸王 应 用 进程 APT 封装 
在 同一 个 5 元 组 字段 的 任何 数据 可 以 准确 地 传输 到 主机 2 上 应 用 进程 AP3 

UDP 允许 不 同 主机 下 的 应 用 程序 百 接 相 于 发 送 数 据 分 段 击 不 涯 炎 首 先 建 立 一 条 连接 。UDPP 端口 从 
本 地 应 川 浊 程 接收 分 段 ， 将 它们 打包 为 不 大 于 64K 字 贡 的 称 为 数据 报 的 单元 中 ， 并 需 充 16 位 源 和 上 日 的 
痢 站 到 和 数据 报 中 其 他 UDP 头 部 宇 段 ， 每 个 数据 报 部 是 以 午 立 的 分 组 乏 跳 也 转发 色 日 的 地 ， 如 第 4 
近 中 所 述 

当 包 会 UDP 数据 的 IP 分 组 色 达 日 的 地 村， 它们 就 被 时 向 色 与 接收 应 用 进程 绑 定 的 UDPP 端 品 
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5.2.2 差错 控制 : 每 个 分 段 的 校 验 和 
除了 端口 号 外 ， 为 检查 每 个 数据 报 的 完整 性 ，UDP 头 部 还 提供 一 个 16 位 的 校 验 和 字段 ， a 
所 示 。 由 于 UDP 数据 报 的 校 验 和 计算 是 可 选 的 ， 所 以 通过 将 校 验 和 字段 设置 为 0 就 可 以 禁止 校 验 和 检 
te 二 CE 
数据 报 和 发 送 者 发 送 的 数据 报 一 样 ， 接 收 者 对 接收 到 的 数据 报 重 新 计算 校 验 和 并 验证 结果 是 否 与 存储 
在 UDP 校 验 和 字段 中 的 值 相 匹配 。UDP 接收 者 将 丢弃 校 验 和 字段 与 计算 结果 不 匹配 的 数据 报 。 这 种 机 
制 保证 了 每 个 分 段 数 据 的 完整 性 ， 但 不 能 保证 每 个 分 段 数 据 的 可 靠 性 。 
UDP 校 验 和 字段 存储 在 头 部 和 负载 中 所 有 16 位 字 总 和 的 1 的 补 码 . 它 的 计算 与 第 4 童 中 讨论 过 的 上 校 
验 和 计算 相 类 似 ee eh 那么 最 后 一 个 字 节 的 后 面 位 填充 0 以 便 形 
成 一 个 用 于 校 验 和 计算 的 16 位 字 。 注意 , 填充 并 非 作为 数据 报 的 一 部 分 传输 ， 因 为 在 接收 者 的 校 验 和 验证 这 
守 相 同 的 填充 过 程 校 验 和 也 包括 一 个 % 位 的 伪 码 头 部 ， 由 下头 部 的 4 个 字段 组 成 : 源 耳 地 址 、 目 的 地 焉 
ee 协议 和 长 度 。 ee 带 有 不 正确 发 送 、 协 议 或 长 度 信 息 的 数据 报 
和 将 0xFFFF 填 入 到 该 字段 中 。 开源 实现 5.2 详细 介绍 了 校 验 和 的 计算 过 程 。 
ee 最 然 是 可 选 的 ， 但 值得 推荐 ， 因 为 某 些 链 路 协议 不 进行 差错 控制 。 当 在 ITPv6 上 上 实现 
UDP 时 ，UDP 上 的 校 验 和 就 是 强制 性 的 ， 因 为 IPv6 完全 不 提供 校 验 和 。 仪 对 于 某 些 实时 应 用 才 会 省 略 
UDP 校 验 和 ， 因 为 这 里 应 用 进程 之 间 的 延迟 和 抖动 比 差 错 控制 更 重要 


开源 实现 5.2: UDP 和 TCP 校 验 和 

概述 

在 Linux 2.6 中 的 校 验 和 计算 流程 图 与 IP 校 验 和 都 可 以 通过 跟踪 源 tcp ipv4.c 中 的 tcp v4 
send check() 函数 学 习 。UDP 校 验 和 的 流程 图 与 TCP 中 的 完全 一 样 。 

数据 结构 

skb 结构 中 称 为 csum 的 字段 用 来 存储 由 一 个 sk_buff 承载 的 应 用 数据 的 校 验 和 。csum 的 定义 
可 以 在 include/1linux/skbuff.h 中 找到 。 当 有 一 个 分 组 将 发 送 时 ， 在 skb- > csum 中 的 值 会 和 分 
组 头 部 一 起 传输 到 校 验 和 函数 以 便 计 算 分 组 的 最 终 校 验 和 

算法 实现 

图 5 人 5 列 出 了 在 tcp v4 send check () 中 的 部 分 代码 。 应 用 数据 首先 计算 校 验 和 进入 skb- > 
csum， 然 后 通过 函数 调用 csum 3 ，Skb- > csum 再 次 计算 校 验 和 利用 指针 th 索引 的 传输 层 
头 部 。 计算 结果 再 次 执行 校 验 和 ， 通 过 封装 了 csum tcpudp magic() 的 tcp v4 check() 与 IP 头 部 
a 最 后 的 结果 存储 在 TCPAUDP 校 验 和 字段 中 。 另 一 方面 ，IP 校 
验 和 是 与 IP 头 部 独立 计算 的 ， 可 以 通过 在 net/ipv4/af inet. c 中 搜索 词语 “iph- > check"” 找到 


th->check = tcp_v 4 check(len, inet-ssaddr, inet->daddr, 
csum partial(l(char *)th, 
th->doff << 2, 
skb->csum)); 


图 5-5 TCPZP 校 验 和 程序 的 部 分 代码 








a 
验 和 计算 的 流程 图 按照 前 面 所 述 绘制 ， 如 图 5-6 所 示 ，。 我 们 从 图 5-5 中 可 以 总 结 出 以 下 几 点 发 

现 : ee 2) IP 校 验 和 并 不 包括 IP 有 效 载荷 。 在 图 5-6 
中 ,DD 表示 指向 应 用 数据 的 指针 ，1lenD 表示 应 用 数据 的 长 度 ，T 表示 指向 传输 层 头 部 (TCP 或 UDP) 
的 指针 ，lenT 表示 传输 层 头 部 的 长 度 ，lenS 表示 分 段 (包括 分 段 的 头 部 ) 的 长 度 ，iph 表示 指向 IP 
头 部 的 指针 ，SA 表示 源 IP 地 址 ，DA 表示 目的 地 址 

练习 

如 果 查 看 csum 在 sk buff 中 的 定义 ， 你 会 发 现 它 的 4 Sh 间 是 与 另外 两 个 变量 : csum 
start 和 csum offset 共享 的 。 解 释 这 两 个 变量 的 用 法 ， 为 什么 这 两 个 变量 要 与 csum 关 革 向 有 党 
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ip_send check(iph) csun tcpudp_magic(SA,DA.lenS.Protocol.csum) 
] 














图 5-6 在 Linux 2.6 中 的 TCPZIP 头 部 校 验 和 计算 


5.2.3 承载 单 播 /组 播 实 时 流量 

由 于 其 简洁 性 ，UDP 是 一 种 适合 于 单 播 或 组 播 实 时 流量 的 载体 .这 是 因为 实时 流量 具有 以 下 特 
点 : 1) 它 不 需要 每 个 流 (per-flow) 的 可 靠 性 ( 重 发 丢弃 的 实时 分 组 可 能 没有 意义 ， 因 为 分 组 不 可 能 
按时 到 达 ); 2) 它 的 位 速率 (带宽 ) 主要 取决 于 所 选 的 编 解码 活 ， 不 大 可 能 进行 流量 控制 。 这 两 种 特 
性 简化 了 用 于 实时 流量 的 传输 层 以 便 仪 提供 寻 址 服务 . 

然而 ,除了 基本 的 进程 到 进程 通信 服务 外 ， 实 时 应 用 也 需要 额外 的 服务 ， 其 中 包括 音频 和 视频 图 
像 流 之 间 的 同步 、 数 据 压缩 和 解压 缩 的 信息 以 及 路 径 质 量 统 计 。 这 些 服务 大 多 数 是 由 RTP 提供 ， 因 
此 ， 在 5.5 节 我 们 将 探讨 建立 在 UDP 上 的 RTP 设计 


5.3 可 靠 的 面向 连接 的 传输 : TCP 

目前 ， 大 多 数 的 网 络 应 用 使 用 传输 控制 协议 〈TCP) 进行 通信 ， 因 为 它 提供 可 靠 、 按 顺序 的 数据 
发 送 。 而 且 ，TCP 自动 调整 它 的 发 送 速 率 以 适应 网 络 拥塞 或 者 接收 机 接收 能 力 的 变化 。 

TCP 旨 在 提供 : 1) 进程 到 进程 通信 信道 的 寻 址 ; 2) 每 个 分 段 的 差错 控制 ; 3) 每 个 流 的 可 靠 性 ; 
4) 每 个 流 的 流量 控制 与 拥塞 控制 。 在 TCP 中 的 信道 寻 址 和 每 个 分 段 的 差错 控制 与 UDP 协议 中 的 一 样 。 
因为 后 者 的 两 个 目标 是 在 每 个 流 的 基础 上 上， 所 以 我 们 在 5. 3. 1 节 首 先 讨 论 TCP 流 如 何 建立 和 解除 ， 然 
后 在 5.3.2 节 中 说 明 TCP 的 可 靠 性 控制 。TCP 流量 控制 和 拥塞 控制 的 介绍 分 别 在 5.3.4 节 和 5.3.3 节 
中 给 出 。 然 后 在 5.3.5 节 中 阐述 TCP 头 部 格式 。TCP 定时 带 管理 问题 将 在 5.3.6 节 讨 论 。 最 后 ,在 
5.3.7 节 中 讨论 TCP 的 性 能 问题 及 其 功能 增强 。 


5. 3.1 连接 管理 
连接 管理 涉及 端 到 端 连 接 的 建立 和 终止 过 程 . 与 UDP 一 样 ， 一 个 TCP 连接 唯一 地 由 5 元 组 标识 : 
源 / 日 的 他 位 址 、 源 /目的 端口 号 和 协议 标识 符 。 建 立 和 终止 一 条 TCP 连接 类 似 于 日 常生 活 中 通过 电话 


与 他 人 交谈 。 为 了 通过 电话 与 他 人 交谈 ， 我 们 拿 起 电话 ， 然 后 再 选择 拨打 的 电话 受 话 人 的 电话 号 码 
(IP 地 址 ) 和 分 机 号 〈 端 口号 ) 。 然 后 ， 我 们 拨打 电话 受 话 人 (发 出 连接 请 求 ) ， 等 待 回 应 (连接 建 


立 )， 并 开始 说 话 (传输 数据 )。 最 后 ， 我 们 说 再 见 ， 挂 掉 电 话 ( 断 开 连 接 )。 

通过 互联 网 建立 一 条 连接 并 不 像 听 候 来 那么 容易 ， 因 为 事实 上 互联 网 偶尔 会 琉 弃 、 存 储 和 重复 分 
组 。 在 互联 网 |， 分 组 以 “存储 转发 ”方式 发 送 到 目的 地 ， 也 就 是 说 ， 中 间 路 由 融 首 先 存储 接收 到 的 
分 组 ， 然 后 把 它们 转发 到 日 的 地 或 者 下 一 跳 。 在 互联 网 上 存储 分 组 导致 了 延迟 和 重复 ， 可 能 会 将 发 送 
者 或 接收 者 弄 混 ， 如 果 分 组 能 够 在 网 络 中 永远 存在 ， 那 么 为 了 解决 睹 义 性 就 特别 复杂 。 因 此 TCP 决定 
将 分 组 的 最 大 生存 时 间 限 制 为 120s。 在 此 选择 下 ，TCP 使 用 Tomlinson 1975 年 建议 的 三 次 握手 协议 ， 
解决 由 延迟 的 重复 分 组 造成 的 歧义 性 状况 。 

连接 建立 /终止 : 三 次 握手 协议 

在 连接 局 动 时 ， 客 户 机 和 服务 器 进程 都 随机 选择 它们 的 初始 序列 号 (SN) 以 减少 由 于 延迟 重复 
分 组 引入 的 歧义 性 影响 效应 。 当 客 户 机 进程 想 要 与 服务 天 进程 建立 连接 时 ， 如 图 5-7a 所 示 ， 它 发 送 一 
个 SYN 分 段 指定 : 1) 客户 机 想 连接 的 服务 器 端口 ; 2) 从 客户 机 发 送 的 数据 分 段 的 SYN。 服务 器 进程 
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用 一 个 带 有 (ACRK +SYN) 的 分 段 响应 SYN 分 段 : 1) 确认 请 求 ; 2) 宣告 从 服务 器 进程 发 送 的 数据 分 
段 的 ISN， 最后， 客户 机 进程 也 必须 确认 来 自 服务 器 进 程 的 SYN 以 便 确 认 连 接 的 建立 注意， 通知 每 
一 个 方向 的 SN、 序列 号 和 确认 号 必须 遵守 图 5-7a 中 的 语义 描述 图 。 这 种 涂 议 称 为 三 次 握手 协议 

TCP 连接 终止 需要 四 个 阶段 而 不 是 三 个 分 段 。 如 图 5-7b 所 示 ， 它 是 一 种 对 每 个 方向 的 两 次 握 和 于， 出 
一 个 FIN 分 段 紧 跟着 一 个 FIN 分 段 的 ACK。TCP 连接 是 一 个 全 双 工 数据 ， 从 客户 机 到 服务 此 或 者 从 服务 
回 色 客户 机 部 是 彼此 独立 的 。 由 主 用 一 个 FIN 分 段 关 闭 一 个 方向 ， 不 会 影响 另外 一 个 方向 ， 所 以 芳 一 个 
方向 的 关闭 还 应 该 再 使 用 一 个 FIN 分 段 ， 注意 ， 通 过 3 次 握手 可 能 关闭 一 个 连接 。 也 就 是 说 ， 客 户 机 发 
送 一 个 FIN， 服 务 器 回应 一 个 FIN + ACK (只 是 将 两 个 分 段 合 并 为 一 个 )， 最 终 客户 机 回应 一 个 ACK 
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图 5-7 TCP 连接 建立 和 终止 的 握手 协议 

发 送 第 一 个 SYN 初始 化 TCP 连接 的 一 方 执行 主动 打开 ， 而 监听 端口 接收 到 达 的 连接 请 求 的 对 等 执 
行 被 动 打 开 。 同样， 发 送 第 一 个 FIN 终止 TCP 连接 的 一 方 执 行 主 动 关闭 ， 市 其 对 等 执行 被 动 关闭 ， 它 
们 之 间 的 详细 区 别 可 用 接 下 来 描述 的 TCP 状态 迁移 图 来 说 明 

TCP 状态 转换 

TCP 连接 在 其 牛 存 时 间 中 通过 一 系列 的 状态 变化 ”这 里 TCP 连接 有 11 种 可 能 的 状态 分 别 是 : 
LINTEN SYNSENMT, SYNRECENED. ESTABLISHED. FIN-W A FIN-W AIT2 .CLOSE-WAIT. 
CLOSING 、LAST-ACK ，TIME-W AIT 和 虚构 的 状态 CLOSED CLOSED 是 虚构 的 ， 因 为 它 表 示 TCP 连接 
终止 的 状态 。 TCP 状态 的 含义 足 ; 

e LISTEN; 等 得 来 月 任何 和 远程 TCP 客户 机 的 连接 请 求 

eSYN-SENT: 已 经 发 送 一 个 连接 请 求 后 ， 等 竺 一 个 匹配 的 连接 请 求 

e SYN-RECEIVED; 已 经 接收 和 发 送 一 次 连接 请 求 后 ， 等 待 连接 请 求 的 确认 

。 ESTABLISHED; 一 个 打开 的 连接 ， 数 据 可 以 在 两 个 方向 发 送 ， 连接 的 数据 传输 阶段 的 正常 状态 

eFIN-WAIT-1: 等 竺 来 摇 延 程 TCP 的 连接 终止 请 求 ， 或 者 以 前 发 送 的 连接 终止 请 求 的 确认 

eFIN-WAIT-2: 竺 往 来 自 远 程 TCP 的 连接 终止 请 求 : 

e CLOSE-WAIT: 等 待 来 自 本 地 用 户 的 连接 终止 请 求 。 

e CLOSINC :等待 对 来 自 远 程 TCP 连接 终止 请 求 的 确认 

se LAST-ACK; 等 竺 对 上 次 发 送 到 远程 TCP 的 连接 终止 请 求 的 确认 ， 

eTIME-WAIT: 在 转换 到 CLOSED 状态 之 前 等 往 是 够 的 时 间 以 确保 远程 TCP 收 到 它 的 最 后 ACK 

正如 RFC 793 中 的 定义 ，TCP 的 工作 是 通过 运行 一 个 如 图 5-8 所 示 的 状态 机 。 窜 户 机 和 服务 器 进 
旺 的 行为 都 得 循 这 种 状态 转换 图 。 阅 $-8 中 棚 体 箭头 和 虚线 箭头 分 别 对 应 客户 机 和 服务 器 进程 的 正常 
状态 转换 ， 在 网 5-8 中 整个 状态 转换 可 以 分 为 :个 阶段 : 连接 建立 、 数 据 传输 和 连接 终止 ， 当 客户 机 
和 服务 党 痢 迁移 到 ESTABLISHED 状态 时 ，TCP 连接 进入 数据 传输 阶段 .在 数据 传输 阶段 ， 客 户 机 可 以 
回 服务 器 发 送 一 个 服务 请 求 ， 一 旦 请 求 得 到 许可 ， 双 方 可 以 通过 TCP 连接 相互 发 送 数据 ,在 数据 服务 
中 ， 服 务 器 进程 最 常见 的 是 充当 TCP 发 送 者 ， 将 请 求 的 数据 文件 发 送 到 客户 机 。 
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正常 连接 建立 和 连接 终止 的 状态 转换 如 图 5-9 所 示 ， 带 有 表示 由 客户 机 和 服务 器 输入 的 标签 。 因 
为 双方 可 能 同时 向 对 方 发 送 SYN 来 建立 TCP 连接 ， 虽 然 这 种 可 能 性 很 小 ， 但 在 图 5-8 中 也 要 考虑 这 种 
“同时 打开 ”的 状态 转换 。 网 5-10a 显示 了 同时 打开 的 状态 转换 
称 为 “同时 关闭 ”。 这 种 情况 下 的 状态 转换 如 图 5-10b 所 示 。 

另 一 方面 ， 在 某 些 异常 的 情况 下 ,包括 丢失 SYN 、 委 失 SYN/ACK 、 在 连接 建立 期 间 丢 失 ACK， 分 


别 在 图 5-11a、b、c 中 显示 


同样 。 在 TCP 中 它 允 许 双方 关闭 ， 


于 失 的 分 段 会 触发 客户 机 连接 超时 ， 然 后 再 返回 到 关闭 状态 ， 


如 图 5-11 


a、 


b 所 示 。 但 是 ， 在 服务 器 上 的 连接 超时 如 图 5-11b、c 所 示 ， 会 导致 返回 到 CLOSED 状态 ， 并 且 将 发 送 


一 个 RST 分 段 重 置 客户 机 的 状态 
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图 5-9 在 连接 建立 和 终止 中 的 状态 转换 
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a) 在 同时 打开 中 的 状态 转换 





b) 在 同时 关闭 中 的 状态 转换 








图 5-10 同时 打开 和 同时 关闭 时 的 状态 转换 
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c) 客户 机 发 送 的 SYN ACK 丢 失 
图 5-11 在 连接 建立 中 有 分 组 丢失 的 状态 转换 
也 有 一 些 异 常 的 情况 ， 例 如， 在 连接 终止 期 间 的 半 打 开 连 接 。 当 TCP 连接 的 一 端的 主机 崩 浊 时 ， 
一 条 TCP 连接 称 为 半 打 开 。 如 果 剩 下 的 一 端 空闲 ， 那 么 连接 会 无 限 地 保持 半 打 开 状 态 。5. 3.6 节 中 介 
绍 的 Keepalive ( 保 活 ) 定时 器 就 能 解决 这 个 问题 。 


5. 3. 2 ”数据 传输 的 可 靠 性 

TCP 为 每 个 分 段 的 差错 控制 使 用 校 验 和 ， 为 每 个 流 的 可 靠 性 控制 使 用 确认 序列 号 
的 目标 和 解决 方案 的 不 同 。 

每 个 分 段 的 差错 控制 : 校 验 和 

正如 5.2 节 所 述 ，TCP 校 验 和 的 计算 与 UDP 的 完全 一 样 。 它 也 包括 一 些 IP 头 部 字段 以 确保 分 组 到 
达 正 确 的 目的 地 。 尽 管 UDP 校 验 和 是 可 选 的 ,但 TCP 校 验 和 是 强制 性 的 。 尽 管 两 种 协议 都 为 数据 完整 
性 提供 校 验 和 字段 ， 但 如 3. 1 节 所 述 ， 与 以 太 网 中 使 用 的 32 位 循环 元 余 校 验 和 相 比 ， 这 里 讲述 的 校 验 
和 是 一 个 相对 较 弱 的 检查 。 


这 里 描述 它们 
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每 个 流 的 可 靠 性 : 序列 号 和 确认 

Per -segment 每 个 分 段 的 校 验 和 不 足以 保证 可 靠 地 和 按 序 地 发 送 全 部 分 组 化 的 数据 流 ， 分 组 化 的 
数据 流 将 通过 进程 到 进程 信道 按 顺 序 发 送 到 目的 地 。 由 于 分 组 的 数据 偶尔 也 会 在 互联 网 上 丢失 ， 所 以 
就 必须 有 一 种 机 人 制 来 重 传 丢 失 的 分 组 。 而 且 ， 因 为 按 顺 序 发 送 的 分 组 由 于 互联 网 路 由 的 无 状态 性 质 可 
能 会 不 按 顺 序 接收 ， 所 以 必须 提供 另外 一 种 机 制 重 新 排列 无 序 的 分 组 。 这 两 种 机 制 分 别 依赖 于 确认 
(ACK) 和 序列 号 以 便 提供 每 个 流 的 可 靠 性 。 

从 理论 上 ， 给 每 字 节 数据 分 配 一 个 序列 号 。 然 后 ,一 个 分 段 的 序列 号 表示 它 的 第 一 个 数据 字 节 的 
序列 号 ,存储 在 TCP 头 部 的 32 位 序列 号 字段 。TCP 发 送 者 进行 编号 并 跟踪 已 经 发 送 的 数据 字 节 并 等 待 
它们 的 确认 。 一 旦 收 到 一 个 数据 分 段 ，TCP 接收 者 就 回应 一 个 ACK 分 段 ， 该 分 段 携 带 的 确认 号 显示 : 
1) 期 望 接收 的 下 一 个 数据 分 段 的 序列 号 ; 2) 所 有 在 指定 ACK 号 码 以 前 的 数据 字 节 已 经 成 功 接收 。 例 
如 ， 通 过 应 答 一 个 ACK =x，TCP 接收 者 可 以 确认 一 个 成 功 接收 的 分 段 ， 这 里 #x 表示: “所 有 在 x 之 前 
的 数据 字 节 已 经 收 到 。 接 下 来 期 望 接收 的 分 段 序列 号 为 x。 请 发 送 给 我 。 

有 两 种 可 能 的 ACK 类 型 : 选择 性 ACK 和 累积 ACK。 选 择 性 ACK 指示 ， 接 收 机 已 经 收 到 了 一 个 分 段 其 
序列 号 等 于 指定 的 ACK 号 码 。 累 计 ACK 指示 在 指定 的 ACK 之 前 的 所 有 八 位 字 节 数据 已 经 收 到 。 因 为 不 对 
称 链 路 很 普遍 ， 这 样 拥塞 就 可 能 发 生 在 从 与 客户 机 (接收 器 端 ) 到 服务 器 (发送 方 端 ) 的 逆向 路 径 上 ， 
ACK 就 有 可 能 比 数据 更 经 常 丢失 。 因 此 ，TCP 使 用 累积 ACK 利用 后 续 的 ACK 对 丢失 的 ACK 进行 补偿 。 

异常 情况 : 数据 丢失 ，ACK 丢失 ， 延迟 和 失去 顺序 

图 5-12 描述 了 可 能 发 生 在 TCP 传输 期 间 的 四 个 异常 例子 。 在 数据 丢失 的 情况 下 ， 在 重 传 超时 后 发 
送 者 就 会 察觉 到 这 种 丢失 ,然后 就 传输 丢失 的 分 段 ， 如 图 5-12a 所 示 。 另 一 方面 ,大 的 传播 延迟 可 能 
会 导致 过 早 超时 ， 导 致 不 必要 的 重 传 。 如 图 5-12b 所 示 ， 接 收 者 将 重 传 分 组 仅 作为 重复 数据 而 丢弃 。 在 
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这 种 情况 下 ， 可 靠 性 虽然 仍 能 得 到 保证 ， 但 如 果 这 种 情况 经 常 发 生 就 会 闫 重 浪费 带宽 。 因 此 ， 如 何 估 
计 一 个 适当 的 重 传 超 时 是 非常 重要 这 个 估计 在 5.3.6 节 进 行 解 释 。 图 $-12c 说 明了 在 TCP 中 使 用 
累积 ACK 的 优点 。 这 里 ACK 琉 失 不 会 造成 任何 不 必要 的 数据 重 传 ， 因 为 随后 的 ACK 会 重复 丢失 ACK 
中 的 确认 信息 ， 即 ACK = 180 重复 天 失 的 ACK = 150 中 的 信息 。 当 接收 到 的 数据 分 段 失去 顺序 时 ， 使 
用 累积 ACK 也 会 导致 出 现 一 种 非常 有 趣 的 情况 ， 接收 者 一 旦 收 到 下 一 个 数据 分 段 就 回复 重复 ACK， 如 
图 5-12d 所 示 ， 就 好 像 接收 者 丢失 了 数据 分 段 一 样 。 从 图 5-12 中 ,我 们 可 以 理解 使 用 聚积 ACK 和 重 传 
超时 进行 确认 ，TCP 可 以 实现 可 靠 的 传输 。 


5. 3.3 TCP 流量 控制 

互联 网 上 的 延迟 分 布 是 扩散 的 ，TCP 发 送 者 需要 足够 智能 和 自 挝 应 才能 最 大 化 性 能 ， 同 时 礼貌 地 
对 待 其 接收 者 缓冲 空间 和 其 他 发 送 者 共享 的 网 络 资源 。TCP 采用 基于 窗口 的 流量 控制 与 拥塞 控制 机 制 
来 确定 在 各 种 条 件 下 应 该 多 快 地 发 送 。 通 过 流量 控制 ，TCP 发 送 方 就 可 以 知道 有 多 少 宫 宽 可 以 消耗 而 

不 会 造成 接收 者 缓冲 区 的 溢出 同样， 通过 拥塞 控制 ，TCP 发 送 者 就 能 避免 增加 全 球 共 至 网 络 资 源 的 

负担 ,本 节 描 述 TCP 流量 探 制 ， 而 将 TCP 拥塞 控制 留 色 5.3.4 节 讲 解 。 

滑动 窗口 流量 控制 

基于 窗口 的 流量 控制 利用 潜 动 窗口 机 制 ， 目 的 是 为 六 测 数 据 伟 铂 兴 由 量 。 发 送 者 保持 一 个 窗口 
序列 号 ， 称 为 发 送 窗口 ， 由 一 个 初始 序列 号 和 结束 的 序列 号 来 描述 。 只 有 序列 号 在 该 发 送 窗 口内 的 数 
据 分 段 才 可 以 发 送 数据 分 乱用 送 但 没有 确 斌 过 的 政 在 一 个 重 传 妥 时 区 中 。 当 带 有 起 始 序列 号 的 数据 
分 段 被 确认 时 ， 该 发 送 窗 口 将 滑动 到 竺 发送 的 数据 。 

图 5-13 显示 了 发 送 者 滑动 窗口 的 伪 代 码 。 图 5-14 也 显示 了 一 个 滑动 窗口 的 例子 。 为 了 清晰 起 见 ， 
我 们 假定 所 有 的 数据 分 段 都 有 具有 相同 的 大 小 。 在 图 5-14 中 ， 为 了 按 序 发 送 分 段 的 字 节 流 ， 窗 上 口 只 需要 
从 左 向 右 滑 动 。 为 了 控制 传输 中 未 应 答 分 段 的 最 大 量 ， 窗口 动 态 地 缩 、 放 ， 下 如 我 们 稍 后 将 要 看 到 的 
当 数 据 分 段 流向 日 的 地 时 ， 对 应 的 ACK 分 段 反 向 流 到 发 送 者 以 触发 窗口 的 滑动 。 泊 窗口 尚未 窗 盖 传送 
的 分 段 时 ， 这 些 分 段 就 被 发 送 到 网 络 管道 上 在 最 初 的 情况 下 ， 如 图 5-14a 所 示 ， 滑动 窗口 的 范 轩 是 
从 分 段 4~ 分 段 8， 即 这 些 分 段 已 经 发 送 过 。 发送 者 接收 到 ACK (Ack =5) ， 表 直接 收 者 已 经 成 功 收 到 
分 段 4， 滑 动 窗口 中 的 第 一 个 分 段 。 因 此 ， 发 送 才 将 滑动 窗 1 (向 后 ) 滑动 一 个 分 段 ， 如 图 5-14b 所 
J 国 样 ，| 和 名 5-14c 和 dd 说明 半 发 送 者 分 别 接 收 介 ACK (Ack=6) 和 ACK (Ack=7) 时 窗 [1 的 滑动 情 
况 在 让 常 情况 下 ， 泊 发送 才 接收 到 一 个 按 采 序 的 ACK 时 ， 它 就 将 窗 1 滑动 一 个 分 段 





SWS: 发 送 窗 1 凡 寸 
n: 当前 序列 号 ， 即 下 一 个 将 区 传 得 的 数据 分 组 
LAR: 接收 二 次 的 确认 。 
IE 如 果 发 送 者 有 数据 要 发 送 
在 最 后 确认 LAR 之 前 ， 最 多 传输 SWS 个 分 组 ， 
即 只 要 nmn<LAR+SWS， 就 可 以 发 送 n 个 分 组 
endif 
if 一 个 ACK 到 达 
如 果 它 的 ack num > LAR， 则 将 LAR 设置 成 ack num 


enais 











图 5-13 发 送 者 的 滑动 窗口 仿 代 码 


现存 我 们 观察 分 组 不 按 序 到 达 接 收 者 的 其 他 情况 ， 如 图 5-15 所 天。 在 这 种 情况 下 ， 接 收 者 首先 接收 到 
DATA 5、DATA 6， 然 后 才 收 到 DATA 4. 由 于 TCP 采用 累计 傅 认 ， 所 以 发 送 者 一 旦 收 到 DATA 5 就 接收 来 
月 接收 者 的 第 一 个 重复 ACK (Ack =4) ， 见 图 5-15Sb。 此 时 窗口 不 能 滑动 ， 一旦 当 发 送 者 收 到 DATA 6 就 接 
收 来 和 白 接收 首发 送 的 第 二 个 重复 ACK (Ack =4)， 窗口 仍然 不 能 滑动 ， 见 图 5-15c， 当 发 送 者 收 到 接收 者 在 
接 色 延迟 的 DATA 4 所 发 送 的 ACK (Ack =7) 后 ， 就 将 窗口 滑动 三 个 数据 分 段 
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Pb) 发 送 者 接收 ACK(Ack=3S) 
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d) 发 送 首 接收 ACK(Ack=7) 
图 5-14 TCP 滑动 窗口 的 可 视 化 
窗口 大 小 的 扩大 和 缩小 
滑动 窗口 流量 控制 中 的 男 一 个 重要 问题 是 窗口 大 小 。 窗 口 大 小 取决 于 其 个 窗口 值 中 的 最 小 值 ， 接收 窗 
口 (RWND) 和 拥塞 窗口 en 如 图 5-16 所 示 。TCP 发 送 者 二 图 同时 考虑 接收 者 的 能 力 
(RWND) 和 网 络 容 量 (CWND) ， 将 其 发 送 速率 限制 为 min (RWND， de 
出 CWND 由 发 送 者 计算 ， 这 将 在 5.3.4 节 中 研究 。 注 意 窗口 的 大 小 实际 上 是 以 字 节 Po 而 不 是 以 分 
段 为 单位 计算 的 。TCP 接收 者 在 TCP 报头 的 16 位 窗口 大 小 中 通 生 dn ] ps 字 节 数 。 只 有 当 已 经 确 
认 了 分 段 即 当 设 团 了 ACEK 探 制 位 时 ， 才 使 用 通告 。 另 一 方面 ，TCP 发 送 者 还 给 出 了 允许 在 网 络 中 传输 
的 季节 数 ， 以 最 大 分 段 大 小 (MSS) 为 单位 
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d) 发 送 者 接收 确认 (Ack=7) 
图 5$-15 ” 当 数 据 分 组 不 按 顺 序 时 ，TCP 滑动 窗口 的 例子 


滑动 缩小 ， 扩 大 











TCP 窗 日 天 小 (-min(RWND.CWND)) 


图 5-16 窗口 的 大 小 和 滑动 
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开源 实现 5.3: TCP 滑动 窗口 流量 控制 

概述 

Linux 2.6 内 核 在 tcp _ output. c 中 实现 tcp write xmit () 函数 ， 将 分 组 写 入 到 网 络 上 。 函数 检 
查 是 通过 调用 tcp snd test () 函数 来 检查 是 否 有 要 发 送 的 内 容 ， 这 里 内 核 会 根据 滑动 窗口 的 概念 进 
行 多 次 测试 : 

算法 实现 

第 一 ， 在 0 () 中 调用 三 个 检查 函数 : tcp cwnd test ()、tcp snd wnd test() 和 


tcp nagle test(), 在 tcp cwnd test() 中 ， 通 过 评估 条 件 tcp packets in flight() <tp-> 
snd cwnd, 内 者 电 否 有 未 经 确认 的 分 段 号 (和 包括 正常 和 重 传 的 分 de 超出 了 当前 网 络 容 量 
(cwnd), ， 在 tcp snd wnd test() 中 ， 内 核 决定 是 否 最 后 发 出 的 分 段 已 经 超过 接收 器 缓冲 区 
的 限制 ， pg 4 数 after (TCP SKBCB (skb))->end seq;tp->snd una +tp-> snd wnd), 
after 逊 数 是 一 个 布尔 函数 对 应 于 “x>y”。 如 果 最 后 发 送 的 分 段 (end seq) 已 经 超出 了 边界 未 


te snd una) 加 上 窗口 大 小 (snd wnd)， 那 么 发 送 者 就 应 当 停止 发 送 。 第 三 ， 在 tcp 
nagle test () 中， 内 核 通 过 tcp nagle check() 执 行将 在 5.3.7 节 讲 解 的 Nagle 测试 。 只 有 分 段 通 
了 这 些 检 查 ， 内 核 才能 调用 tcp transmit skb( ) 函数 发 送 窗口 内 更 多 的 分 段 ed 我 们 

可 以 观察 到 的 另 一 个 有 趣 的 现象 就 是 Linux 2.6 内 核 使 用 最 细 粒 度 发 送 窗口 大 小 内 的 分 段 。 也 就 是 说 ， 
它 在 通过 了 所 有 前 面 的 检查 后 只 发 送 一 个 分 段 ， 有 下 一 个 分 段 要 发 送 ee ee 在 发 送 
分 段 的 过 程 中 ， 如 果 有 任何 窗口 扩大 或 缩小 ， 内 核 就 可 以 立即 更 改 网 络 上 允许 的 分 段 数量 。 但是， 这 
样 做 会 引起 大 量 的 开销 ， 因 为 它 每 次 仅 发 送 一 个 分 段 。 

练习 

在 tcp snd test () 中 ， 在 上 述 三 个 检查 函数 之 前 需要 调用 另外 一 个 函数 tcp init tso segs () 
解释 该 函数 的 作用 是 什么 ? 


5.3.4 TCP 拥塞 控制 

TCP 发 送 者 是 通过 检测 数据 分 段 于 失事 件 来 推断 网 络 是 否 拥塞。 一 个 于 失事 件 后 ， 发 送 者 会 礼貌 
地 减 慢 其 传输 速率 并 保 : 和 栓 研 雪 你 坊 关 带 件 国王 昔 区 站 这 个 过 程 称 为 拥塞 控制 ， 旨 在 取得 资源 有 
效 利用 率 的 同时 避免 网 络 拥 塞 。 通常 ， TCF 拥塞 控制 的 县 想 就 是 为 每 个 TCP 头 部 确定 从 发 送 :者 到 接收 
者 路 由 路 径 上 上 的 可 用 带宽 ， 所 以 它 知道 发 送 多 少 分 段 是 安全 的 ， 

从 基本 的 TCP、Tahoe、Reno 到 NewReno、SACK/FACK 和 Vegas 

TCP 协议 的 发 展 超过 二 十 年 了 , 已 经 提出 了 许多 版 本 的 TCP 以 提高 传输 性 能 ,第 1 版 于 1981 年 
由 RFC 793 标准 化 ， 其 中 定义 了 TCP 的 基本 结构 : 序 站 于 禄 吕 前 闹 量 控制 和 术科 度 的 莉 传 定时 逢 。 
a ni me 因为 当时 所 使 用 的 电 传 网 络 设备 具有 每 链 路 的 流量 控制 ， 
而 且 互 联网 流量 也 比 现在 少 得 ey wh i ee ern tt te 
中 的 ， 大 约 是 在 TCPZTP ek, 了 8 年 后 。 此 时 ， 玉 联网 已 经 开始 经 历 拥 塞 前 溃 ， 主 机 也 开始 以 
超出 接收 方 通告 窗口 允许 的 速度 ey 那么 拥塞 就 会 在 某 :上 路 由 器 上 上 发生， 导致 分 组 
的 丢失 、 主 机 超时 和 重 传 丢失 的 分 组 ， 造 成 更 加 严重 的 拥塞 。 因 此 ，1988 年 在 BSD 4.2 上 发布 的 第 
2 版 ，TCP Tahoe， 增 加 了 由 Van Jacobson 提出 的 拥塞 避免 和 快速 重 传 方案 。 第 3 版 ，TCP Reno 通过 
添加 快速 恢复 而 扩展 了 拥塞 控制 。RFC 2001 对 TCP Reno 进行 了 标准 化 ，RFC 2581 对 它 进 行 了 总 结 。 
到 了 2000 年 ，TCP Reno 已 经 成 为 最 流行 的 版 本 ， 但 在 最 近 的 一 份 报告 中 ，TCP NewReno 目前 已 经 更 
加 流行 。 

在 TCP Reno 中 存在 一 些 缺 点 。 最 引 人 注 目的 是 多 分 组 丢失 (MPL) 问题 ， 由 于 多 个 分 段 在 短 时 间 
间隔 内 丢失 ， 所 以 Reno 常常 会 导致 超时 和 低 的 利用 率 。NewReno、SACK (选择 性 确认 ， 定义 在 RFC 
1072 中 ) ， 以 及 Vegas (由 上 Brakmo 和 上 ， Peterson 于 1995 年 提出 ) 以 三 种 不 同 的 方法 来 解决 这 个 问 
题 ，TCP FACK (前 向 确认 ) 版 本 ， 进 一 步 增强 了 TCP SACK 版 本 。 我们 首先 学 习 TCP 拥塞 控制 的 基本 
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版 本 ， 即 TCP Tahoe 和 人 TCP Reno 通过 NewReno、SACK 、FACK、Vegas 的 进一步 增强 在 5.3.7 节 中 


介 终 
介绍 


TCP Tahoe 拥塞 控制 

Tahoe 使 用 拥塞 窗口 (cwnd) 控制 在 一 个 往返 时 间 (RTT) 内 传输 的 数据 量 ,， 使 用 最 大 窗口 
(mwnd) 约束 cwna 的 最 大 值 ，Tahoce 以 snd. nxt -= sng. una 的 形式 估计 末 经 确认 的 数据 时 awnd， 这 
由 snd. nxt 和 snd. una 分 别 为 术 发 送 数 据 的 序列 号 和 术 人 确认 数据 的 序列 号 ， 泊 awna 小 于 cwna I 叶 ， 
发 送 方 继续 发 送 新 的 分 组 ; 再 则 ， 发 送 方 停 止 发 送 。Tahoe 的 控制 方案 可 分 为 四 种 状态 ， 其 转换 图 如 
图 5-17 所 示 并 上 且 解释 如 下 : 
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图 5-17 TCP Tahoe 拥塞 控制 算法 
慢 启 动 : 慢 局 动听 在 短 短 的 几 个 RTT 时 间 内 迅速 探测 到 可 用 的 带宽 。 妆 一 个 连接 司 动 或 发 生 重 传 
超时 后 ， 通 过 将 swna 的 初始 值 设 置 成 一 个 分 组 开始 慢 司 动 状 态 ， 即 MSS。 发 送 方 通过 每 次 只 要 收 公 
一 个 ACK 时 就 添加 一 个 分 组 到 cwna 中 而 旺 指数 地 增加 cwnda， 经 过 每 个 RTT 后 ， 如 果 所 有 的 ACK 4 上 


傅 及 时 地 收 到 ， 就 加 倍 cwnd (1. 2.、 4. 8 等 )， 如 图 5-18 所 示 。 因 此， 和 慢 启 动 一 点 也 不 慢 。TCP 发 送 
方 一 下 处 在 慢 启 动 状 态 ， 下 到 它 的 cwnd 达 公 慢 司 动 的 疯 值 ssthresh (或 图 5-17 中 的 ssth) 为 止 
之 后 ， 它 就 进入 拥塞 避免 状态 。 注 意 ， 泊 发 起 一 次 连接 时 ,将 ssthresh 设置 为 ssthresh 的 最 大 值 


(有 具体 取决 于 存储 ssthresh 的 数据 类 型 )， 所 以 不 限制 慢 启 动 带 宽 探 测 。 如 果 收 人 到 个 重复 的 ACK， 
TCP 发 送 方 就 进入 快速 发 送 状态 许昌 将 cwna 重 置 为 1 如 果 重 传 超 时 前 没有 收 色 ACK、 那 么 就 将 
cwnd 重 壮 为 1，TCP 发 送 方 进入 年 传 超 时 状态 

拥塞 避免 : 拥塞 避免 的 口 的 在 于 缓慢 地 探测 可 咱 人 带宽， 但 迅速 地 啊 应 拥 寒 事 件 ， 它 遵循 加 法 增加 
乘法 减少 (AIMD) 的 上 原则， 由 于 慢 局 动 状 态 中 的 窗口 大 小 呈 指 数 增加 .所 以 以 此 不 断 增 加 的 速度 发 送 
分 组 就 会 很 快 导致 网 络 拥 坚 。 为 了 避免 这 种 情况 ，¢ cwnd 超过 ssthresh 时 号 启动 拥塞 避免 状态 


在 这 种 状态 下 ,一旦 收 到 eh AGOCK、cwna 就 增加 1/cwnd 个 分 组 ， 从 而 使 得 窗口 的 大 小 中 线性 地 增 
人 因此 ，cwnq 通常 每 经 过 一 个 RTT 后 就 会 递增 1 (每 收 到 一 个 ACK 就 增加 1/cwnd)， 但 如 果 收 到 


-个 重复 的 ACK， 就 重 壮 为 1， 以 便 秀 发 快速 传输 状态 网 样 ， 重 传 超时 租 发 cwna 的 重演 六 转换 旬 征 
传 超 时 状态 。 图 5-19 描绘 了 加 法 增加 行为 
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图 5-18 人 慢 局 动 过 程 中 传输 分 组 的 演示 图 图 5-19 在 拥塞 避免 期 间 传输 分 组 的 可 视 化 


快速 重 传 : 快速 重 传 的 目的 是 立即 传送 丢失 的 分 组 而 无 震 等 到 重 传 定 时 带 超 时 :正如 5.3.2 节 中 所 
述 ， 重 复 的 ACK 是 由 于 丢失 的 分 组 ( 见 图 S$-12a) ， 或 者 由 于 重复 的 分 组 ( 见 图 $-12b) 、 或 者 由 于 在 接 
收 方 收 到 无 序 的 分 组 ( 见 图 5-12c) 所 造成 的 .在 亚 失 数据 分 组 的 情况 下 ， 发 送 方 应 该 重 传 . 由 于 发 送 
方 不 知道 什么 原因 导致 出 现 重 复 的 ACK， 所 以 快速 重 传 使 用 局 发 式 算法 : 如 果 一 行 中 接收 到 3 个 或 更 多 
的 重复 ACK (3 个 重复 的 ACK (TDA) ) ,那么 TCP 发 送 方 就 假定 已 经 发 生 了 分 组 丢失 。 发 送 方 然后 重 传 
假定 玉 失 的 分 组 、 而 无 需 等 待 一 个 粗 粒 度 重 传 定时 带 超 时 。 发 送 方 传输 了 玉 失 的 分 组 后 ， 它 根据 AIMD 
就 将 它 的 ssthresh 设置 成 当前 cwnd 值 的 一 半 ， 并 再 次 启动 将 cwnd 重 置 为 1 的 慢 启 动 状态 

重 传 超 时 : 壬 传 超 时 提供 最 后 的 和 最 慢 的 重 传 天 失 分 组 的 方法 。 发 送 方 维护 一 个 重 传 定时 融 ， 它 
用 来 检查 确认 的 超时 ， 它 可 以 超过 发 送 窗 口 的 左边 缘 。 如 果 发 生 超时 ， 如 快速 重 传 状态 中 的 处 理 ， 发 
送 方 将 ssthresh 减少 为 cwnd/2， 将 cwna 重 壮 为 1 并 从 慢 局 动 状态 重新 启动 。 超 时 值 很 大 程度 上 -下 
决 于 RTT 和 RTT 偏差 。RTT 测量 的 波动 越 大 ， 保 持 的 超时 人 就 越 大 ， 这 样 不 会 重 传 已 经 到 达 的 分 段 
测量 到 的 RTT 越 稳定 ， 就 可 以 设置 更 接近 RTT 的 超时 值 ， 以 便 快 速 重 传 丢 失 的 数据 分 段 。TCP 采纳 由 
Van Jacobson 在 1988 年 建议 的 一 种 高 度 动态 的 算法 ， 根 据 连续 测量 的 RTT 不 断 地 调整 超时 间隔 ， 这 部 
分 内 容 将 在 5. 3. 6 节 中 讨论 


历史 演变 : TCP 版 本 的 统计 值 

TCP NewReno 已 逐步 成 为 互联 网 中 TCP 的 主要 版 本 。 国际 计算 机 科学 研究 所 (TICSI) 的 一 份 研究 
报告 中 指出 所 有 成 功 标 识 的 35 242 台 Web 服务 器 中 ， 使 用 TCP NewReno 的 服务 器 百分比 从 2001 年 的 
35% 增加 至 2004 年 的 76% ， 支 持 TCP SACK 服务 器 比例 也 从 2001 年 的 40% 增加 到 2004 年 的 68% 此 
外 ，TCP NewReno 和 SACK 在 多 个 流行 的 操作 系统 ， 包 括 Linux、Windows XP 和 Solaris 中 得 到 支持 ， 与 
NewReno 和 SACK 越 来 越 多 的 应 用 相 比 ，TCP Reno 和 Tahoe 的 比例 却 分 别 下 降 到 5% 和 2% ，TCP 
NewReno 和 SACK 迅速 采取 的 原因 之 一 ， 就 是 它们 提供 更 高 的 香 吐 量 ， 为 用 户 提供 理想 的 属性 ， 而 不 会 
恶化 网 络 拥 塞 ， 这 是 网 络 管 理 员 首要 关注 的 问题 


开源 实现 5.4: TCP 慢 启动 和 拥塞 避免 
概述 
Linux 2.6 内 核 ttp_ cong' ce 中 的 慢 启 动 和 拥塞 避免 是 通过 tcp_slow_ start () .tcp reno cong_ 


彰 





avoid() 和 tcp cong avoid ai () 三 个 函数 实现 的 。 

数据 结构 

在 上 述 三 个 函数 中 ,tp 是 指向 套 接 字 结构 tcp sock 的 指针 ， 其 定义 可 以 在 linux/include/ 
linux/tcp.h 中 找到 。 在 tcp sock 中 包含 snd cwnd,snd ssthresh 用 于 存储 拥塞 窗口 和 慢 启 动 
闷 值 ，snd cwnd cnt 用 于 简化 当 接 收 到 ACK 分 组 就 递增 1/cwnd 个 分 组 的 拥 塞 避 免 实现 ，snd 
cwnd clamp 用 于 限制 拥塞 窗口 ( 非 标准 ) 

算法 实现 

Linux 2.6 内 核 tcp_cong. c 中 的 慢 启 动 和 拥塞 避免 在 图 5-20 中 进行 了 总 结 。 注意， 在 拥塞 避免 
中 ， 将 收 到 ACK 后 就 递增 1/cwnd 个 分 组 简化 为 一 旦 接收 到 cwnd 分 段 的 所 有 ACK 就 增加 一 个 全 尺寸 
的 分 段 ( MSS 字 节 ) ， 如 图 5-20 的 行 5~11 所 示 





1: if (tp->snd cwnd <= tp->snd ssthresh) { /* Slow start*/ 
2 if (tp->snd cwnd < tp->snd cwnd clamp) 
态 汉 tp->snd cwnd++; 
4: } else { 
if (tp->snd cwnd cnt >= tp->snd cwnd) { /* Congestion 
Avoidance*/ 
6z if (tp->snd cwnd < tp->snd cwnd clamp) 
7 tp->snd cwnd++; 
Bs tp->snd cwnd cnt=0，; 
9: } else { 
ID tp->snd cwnd cnt++; 
11: } 
Le 了 











图 5-20 ”Linux 2.6 中 TCP 慢 启 动 和 拥塞 避免 
练习 
当前 在 tcp cong. c 中 的 实现 提供 了 一 种 灵活 的 架构 ， 允 许 用 其 他 方法 替代 Reno 慢 启 动 和 拥塞 
避免 
1. 解释 如 何 实现 上 述 功能 . 
2. 从 内 核 源 代码 中 找到 一 个 通过 这 种 体系 结构 更 改 Reno 算法 的 例子 。 


TCP Reno 拥塞 控制 

TCP Reno 通过 在 分 组 丢失 后 将 快速 恢复 状态 引入 到 随后 的 恢复 阶段 扩展 了 Tahoe 拥塞 控制 方案 。 
Reno 控制 方案 如 图 5-21 所 示 。 人 快速 恢复 将 注意 力 集中 在 网 络 管道 中 保留 足够 未 经 确认 的 分 组 以 便 保 
留 TCP 的 自 同步 行为 。 网 络 管道 概念 和 TCP 的 自 同 步行 为 将 在 5.3.7 节 中 详细 介绍 。 当 执行 快速 重 
传 时 ,将 ssthresh 设置 成 cwnd 的 一 半 ， 然 后 将 cwng 设置 成 ssthresh +3 是 由 于 三 个 重复 的 
ACK。 每 一 个 收 到 的 重复 ACK 表示 男 一 个 分 组 已 退出 网 络 管道 ， 因 此 对 于 触发 快速 重 传 的 三 个 重复 
的 ACK， 更 正确 的 思路 是 将 awnad 减 3 而 不 是 加 3， 其 中 awnd 是 在 网 络 管道 中 未 经 确认 的 分 组 的 数 
量 ， 然 而 ， 在 Reno 中 ，awnad 的 计算 是 snd. nxt - snd. una， 在 此 状态 下 是 固定 不 变 的 。 因 此 Reno 
递增 cwnd， 而 不 是 减少 awnd， 以 达到 同样 的 目的 。 当 收 到 重 传 分 组 的 ACK 时 ,将 cwnd 设置 为 ss- 
thresh， 发 送 方 重新 进入 拥塞 避免 状态 。 换 句 话 说 ， 经 过 快速 恢复 后 ，cwnd 重 置 为 老 的 cwnd 值 的 
一 

我 们 用 一 个 例子 突出 说 明 Tahoe 和 Reno 之 间 的 区 别 ， 分 别 在 图 5-22 和 图 5-23 中 显示 。 在 这 两 张 
图 中 ， 收 到 分 组 30 的 ACK 后 ， 发 送 方 发 送 分 组 31 ~38。 假 设 cwna 等 于 8 个 分 组 并 且 分 组 31 在 传输 
过 程 中 丢失 了 。 由 于 分 组 32、33、34、35、36、37 和 38 已 经 接收 到 ， 所 以 接收 方 发 送 7 个 重复 的 
ACK。Tahoe 发 送 方 在 接收 到 第 三 个 重复 的 ACK 时 察觉 到 分 组 31 丢失 了 ， 然 后 立即 将 cwna 设置 为 一 
个 分 组 ， 重 传 玉 失 的 分 组 ， 返 回 到 慢 启 动 状 态 。 在 收 到 4 个 更 多 的 重复 ACK 后 ， 发 送 方 维持 cwnd 值 
为 1 和 awna 为 8 (39 ~31)。 在 接收 到 分 组 38 的 ACK 后 ， 发 送 方 就 可 以 发 送 新 的 分 组 39 
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图 5-21 TCP Reno 拥塞 控制 算法 
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) ”发 送 方 发 送 分 段 31-38 





(2) Ss A rT ) ”接收 方 回复 7 个 重复 的 ACK (ack num=31) 


EA 





[9 2 cwnd=1 发 送 方 收 到 3 个 重复 的 ACK 并 日 将 cwnd 更 改 为 1 个 分 组 ， 
- awnd=8 重 传 丢失 的 分 段 31 发 送 方 退出 快速 发 送 并 进入 慢 启动 状态 
31 31 31 31 
5 cwnd=1 
(0) > awnd—8 
cwnd=1 
awnd=] 
图 5-22 TCP Tahoe 拥塞 控制 的 例子 


男 一 方面 ， 当 Reno 发 送 方 洞察 到 分 组 31 丢失 后 ， 它 立即 将 cwna 设置 为 8/2] +3 分 组 ， 重 传 
丢失 的 分 组 ， 并 进入 快速 恢复 状态 。 发 送 方 收 到 4 个 更 多 的 重复 ACK 后 ,发 送 方 继续 将 cwna 加 4 并 
转发 新 的 分 组 39、40 和 41。 在 收 到 分 组 38 的 ACK 后 ， 发 送 方 退出 快速 恢复 ， 进 入 拥塞 避免 ， 并 将 
cwnd 设置 为 4 个 分 组 ， 这 是 老 的 cwnd 值 的 一 半 。 因 为 现在 awnd 等 于 3 (42 -39) ， 所 以 发 送 方 可 以 
发 送 新 的 分 组 42 

比较 图 5-22 和 图 5-23 中 的 步 双 (4)，Tahoe 不 能 发 送 任 何 新 的 分 组 了 ,但 Reno 却 可 以 。 因 此 很 





D 当 泥 收 到 重 传 分 段 31 时 ， 它 回复 ACK (ack num= 39) 





39 
39 


四 
We 





D 发 送 方 发 送 分 段 39 
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明显 ， 在 玉 失 分 组 后 TCP Reno 利用 快速 恢复 得 到 更 高 效 的 传输 
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D 接收 方 回复 7 个 重复 的 ACK (ack num=31) 
awnd=8 


3 313 










发 送 方 收 到 3 个 重复 的 ACK 并 将 cewnd 更 改 为 
D 。 (82):3 个 分 组 。 重 传 丢 失 的 分 段 31。 发 送 方 
退出 快速 发 送 并 进入 快速 恢复 状态 


cwnd=7 
awnd=8 
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39 40 41 





So DD。 当 接收 方 收 到 重 传 分 段 31 时 ， 它 回复 ACK 






= 
3 awnd=8-==>11 (ack num= 39) 

39 
| 发 送 方 退出 快速 转发 并 进入 拥塞 避免 状态 。 将 


cwnd 更 改 为 分 段 + 





40 341 42 
图 5-23 ”TCP Reno 拥塞 控制 的 例子 
虽然 Reno 一 直 是 最 流行 的 TCP 版 本 ,但 它 却 存在 多 分 组 丢失 的 问题 ,降低 了 其 性 能 。 我们 将 在 
5.3.7 节 更 进一步 研究 这 个 问题 及 其 解决 方案 ， 


行动 原则 : TCP 拥塞 控制 行 ; 

Linux 2.6 中 同时 实现 了 各 种 TCP 版 本 ， 包 括 NewReno、SACK 和 FACK， 这 些 将 在 5.3.7 节 中 研 
完 ， 然 而 ， 它 们 在 一 个 分 组 丢失 情况 下 的 基本 行为 与 Reno 非常 相似 。 图 5-24 显示 了 Linux 2.6 TCP 拥 
塞 控制 的 一 个 例子 快照 。 它 是 通过 处 理发 送 窗口 大 小 的 内 核 上 日 志和 嗅 探 分 组 头 部 产生 的 
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时 间 (8) 
b) 发 送 字 季 
图 5-24 Linux 2.6 中 的 慢 启动 和 拥塞 避免 : cewnd 与 序列 号 


乱伦 层 2 





在 图 5-24a 中 ， 在 拥塞 发 生前 的 1.45s，cwnd 快速 增长 超出 了 在 慢 启 动 状 态 中 图 的 边界 ，。 但是， 
注意 rwnd 几乎 一 直 保 持 在 21 个 分 组 ， 因 此 发 送 速率 限制 在 21 分 组 KTT 介 于 /0.75s 和 1.45s 之 闻 ， 如 
图 5-24b 所 示 ”这 是 因为 实际 的 发 送 窗口 大 小 由 cwnd 和 rwnd 之 间 的 最 小 值 确定 。 因此， 从 0.75 ~ 
1.45s 的 cwnd 增长 比 从 0 ~0.75s 的 增长 要 缓和 很 多 ,因为 进入 ACK 的 速率 是 固定 的 ， 在 0.75 ~ 
1.45s， 从 0.75 ~1.45s， 全 双 工 网 络 管道 不 断 填 充 到 21 个 分 组 ， 如 果 网 络 的 前 向 路 径 和 反 向 路 径 是 对 
称 的 ， 那么 其 中 大 约 一 半 的 分 组 是 ACK 

当 拥 塞 发 生 在 1.$s 时 ， 三 个 重复 的 ACK 就 触发 快速 重 传 ， 重 传 丢失 的 分 段 。TCP 源 由 此 就 进入 快 
速 恢复 状态 ,将 ssthresh 重 置 为 cwnd/2 =10， 而 将 cwnd 重 置 为 ssthresh +3。 在 快速 恢复 期 间 ， 
当 TCP 发 送 方 接收 到 一 个 重复 的 ACK 时 就 将 cwnd 增加 一 个 MSS， 以 便 保持 足够 的 分 段 在 传输 中 。 当 
天 失 的 分 段 被 恢复 时 ,快速 恢复 状态 就 结 来 于 1.7s， 在 这 一 刻 ， 将 cwnd 重 置 为 ssthresh (以 前 设置 
为 10) 并 更 改 为 拥塞 避免 状态 ”在 此 之 后 ， 当 收 到 滑动 窗口 的 所 有 ACK 时 ，cwnd 就 会 递增 一 个 MSS 


5. 3.5 TCP 头 部 格式 

在 本 节 中 ， 我 们 将 学 习 到 此 为 止 还 未 提 到 的 图 $-25 中 TCP 头 部 的 其 他 字段 。 如 $.3.2 节 中 所 指出 
的 ,一 个 TCP 分 段 包 含 一 个 16 位 源 端口 号 、 一 个 本 口号 、 一 个 32 位 序列 号 和 一 个 32 位 的 
铎 认 号 。 这 些 字段 在 TCP 分 段 头 部 中 携带 以 便 在 网 络 上 传输 。 当 SYN 位 未 设置 时 ， 序列 号 就 对 应 于 该 
分 段 中 的 第 一 个 数据 八 位 位 组 ， 如 果 设 置 了 SYN 位 ， 序 列 号 就 是 初始 序列 号 (ISN) 并 且 第 一 个 数据 
季节 编号 为 TSN +1， 如 果 设 置 了 ACK 控制 位 ， 邢 么 确认 字段 包含 ACK 分 段 的 发 送 方 期 望 接 收 的 下 一 
个 庄 列 号 的 值 。 随 后 的 确认 号 是 一 个 4 位 的 关 部 长 度 字段 ， 它 指示 TCP 头 部 中 32 位 字 的 数量 ， 其 中 包 
括 TCP 选 项。 从 技术 的 角度 看 ， 它 也 意味 着 应 用 数据 的 开始 ， 在 图 5-25 中 的 2 仅 当 分 
段 足 一 个 向 有 ACK 控制 位 设置 的 确认 时 才 会 使 用 。 它 指定 愿意 接收 的 分 段 字 节 数 ， 这 是 从 确认 字段 中 





发 送 者 即 TCP 接收 者 所 指定 的 字 节 开始 的 。 窗 口 的 大 小 取决 于 套 接 字 缓 冲 区 的 大 小 和 接收 方 的 接收 速 
度 ， 在 接 字 缓冲 区 的 大 小 可 以 使 用 套 接 字 API setsockopt () 编程 
0 4 Is; 所 
源 端 口号 上 目的 端口 号 





20 字 节 





立 保 窗口 大 小 


选项 (0 或 更 多 32 位 字 ) 
数据 (可 选 ) 


图 5-25 TCP 报头 格式 
头 部 长 度 字段 后 跟 6 位 控制 位 。 第 一 位 是 URG 位 ， 设 置 为 1 表示 使 用 16 位 紧急 指针 字段 。 紧 急 
指针 是 一 个 序列 号 偏 移 ， 指 示 最 后 一 个 紧急 数据 字 节 。 这 种 机 制 有 利于 TCP 连接 的 带 内 信 令 实现 。 例 
如 ， 有 用户 可 以 使 用 Ctrl +C 来 触发 一 个 紧 忽 信号 以 便 取消 对 等 终端 上 进行 的 操作 。 接 下 来 的 是 ACK 
位 ， 指 定 确 认 号 字段 是 有 效 的 ， he 设置 ACK 位 ,那么 就 忽略 确认 号 字段 。 接 下 来 是 PSH 位 ，] 
任务 是 通知 设置 PSH 分 组 的 接收 方 ， 立 即将 缓冲 区 中 的 所 有 数据 发 送 到 接收 应 用 程序 而 不 用 等 待 
够 的 应 ) 用 数据 填充 缓冲 区 后 青 发 送 。 接 下 来 的 位 是 RST， 用 来 重 置 一 条 连接 。 任何 接 收 到 RST 设置 分 
组 的 主机 应 立即 关闭 与 该 分 组 相关 的 僚 接 字 对 。 下 一 位 是 SYN 位 ， 用 于 初始 化 一 条 连接 ， 如 5.3.1 节 
申 拟 孙 最 后 一 位 是 RIN， 如 5.3.1 和 节 中 所 示 ， 用 来 指示 发 送 方 不 再 有 更 多 数据 发 送 ， 双 方 都 可 以 关闭 
故 接 了 
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TCP 报头 ， 以 及 将 要 讨论 的 选项 ， 必 须 是 一 个 32 位 字 的 整数 倍 。 将 可 变 的 填充 位 添加 到 TCP 报 
头 ， 以 确保 TCP 报头 的 结束 和 TCP 有 效 载荷 的 开始 都 在 一 个 32 位 边界 上 。 填充 是 由 零 位 组 成 的 

TCP 选项 

选项 占据 TCP 头 部 最 后 的 空间 。 一 个 选项 是 多 个 字 节 ， 可 能 从 任何 字 节 边界 上 开始 。 目前 定义 的 
选项 包括 : 选项 列表 结束 、 无 操作 、 最 大 分 段 尺寸 、 窗 口 缩放 系数 和 时 间 崔 .注意 ， 所 有 选项 都 包含 
在 校 验 和 计算 中 。 图 5-26 描述 了 TCP 选项 的 格式 。 选 项 列表 结束 和 无 操作 是 只 有 一 个 字 节 的 选项 字 
段 ， 其 余 的 选项 每 个 都 包含 3 元 组 字段 : 一 个 字 贡 的 选项 类 型 、 一 个 字 节 的 选项 长 度 和 选项 数据 ， 选 
项 长 度 计算 选项 类 型 和 选项 长 度 的 两 个 字 节 以 及 选项 数据 的 字 节 。 注意， 选项 列表 可 能 会 比 数据 偏 移 
子 段 的 短 ， 因 为 超出 选项 列表 结束 选项 的 头 部 内 容 必 须 是 霉 填充 位 


最 大 分 段 尺 寸 | kind=2 | Jen=4 ee 














窗口 缩放 系数 
时 间 戳 | kind=8 len=10 时 间 戳 值 时 间 戳 echo 应 答 
图 5-26 TCP 选项 


选项 列表 结束 指示 所 有 选项 的 结束 ， 而 不 是 每 个 选项 的 结束 。 根 据 数 据 偏 移 字 段 ， 选 项 列表 结束 
仅 在 它 没有 刚好 与 TCP 头 部 结束 相 一 化 时 才 使 用 。 在 选项 之 间 可 以 使 用 无 操作 ， 例 如 ， 为 了 对 齐 字 边 
界 上 随后 选项 的 开始 。 不 能 保证 发 送 方 一 定 使 用 此 选项 ， 所 以 即使 它们 不 从 字 边 界 上 开始 ， 接 收 方 也 
必须 为 处 理 该 选项 做 准备 ， 

如 果 给 出 最 大 分 段 大 小 (MSS) 选项 ,那么 它 就 以 在 发 送 该 分 段 的 TCP 端 利 用 最 大 接收 分 段 大 小 
六 生肖 此 该 字段 必须 只 在 初始 连接 请 求 中 发 送 (在 带 有 SYN 控制 位 设置 的 分 段 中 ) 。 如 果 不 使 用 此 
选项 ， 那 么 允许 任意 大 小 的 分 段 

如 果 发 送 的 大 小 超过 2 字 节 ， 那么 32 位 的 序列 号 将 用 完 。 通 常情 况 下 ， 这 不 成 问题 ， 内 为 序列 
号 可 以 循环 使 用 。 然 而 ， 在 高 速 网 络 中 序列 号 可 能 非常 迅速 地 循环 ， 所 以 循环 使 用 的 序列 号 可 能 会 造 
成 混乱 。 因 此 ， 就 需要 防止 循环 回 绕 的 序号 (PAWS) 以 避免 产生 副作用 。 使 用 TCP 窗口 缩放 系数 选 
项 ，TCP 接收 方 可 以 通告 一 个 非常 大 的 窗口 大 小 ， 通 过 与 发 送 方 协商 一 个 移 位 计数 来 解释 窗口 大 小 的 
缩放 。 以 这 种 方式 ， 发 送 方 就 可 以 以 非常 高 的 速率 发 送 。 为 了 执行 PAWS， 利 用 TCP 时 间 戳 选项 为 每 
一 个 发 送 的 分 段 附加 一 个 时 间 戳 。 接 收 方 将 时 间 戳 值 复制 到 它 相 应 的 ACK 中 ， 以 便于 使 用 循环 回 绕 序 
列 号 的 分 段 可 以 被 识别 出 来 而 不 会 与 RTT 估计 器 相 混 消 。 

使 用 额外 的 TCP SACK 选项 以 便 提 高 在 TCP 拥塞 控制 快速 恢复 阶段 的 性 能 。 选 项 包含 两 个 字段 ， 
指示 连续 收 到 分 段 序 列 号 的 开始 和 结束 。TCP SACK 将 在 5. 3. 7 节 中 详细 研究 。 











5. 3.6 TCP 定时 器 管理 
每 个 TCP 连接 保持 一 组 定时 器 以 驱动 其 状态 机 ， 如 图 5-8 所 示 ， 即 使 是 没有 到 达 的 分 组 触发 状态 
转换 也 是 如 此 。 表 5-2 总 结 了 这 些 定时 器 的 功能 。 在 本 小 节 中 ,我们 将 详细 研究 两 种 强制 的 定时 器 ， 
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重 传 定时 器 和 坚持 定时 器 ， 以 及 一 个 可 选 的 定时 器 ， 保 活 定 时 器 .由 于 对 性 能 的 考虑 ， 这 些 定 时 器 在 
不 同 操作 系统 上 以 不 同 的 方式 实现 
表 5-2 所 有 定时 器 的 功能 
名 字 功 能 


为 了 建立 一 条 新 的 TCP 连接 ， 发 送 一 个 SYN 分 段 。 如 果 在 连接 超时 时 间 内 没有 收 到 对 
SYN 分 段 的 响应 ， 那 么 将 连接 终止 








连接 定时 器 





重 发 定时 沉 加 如 果 数 据 没有 得 到 确认 并 且 此 定时 器 到 期 ， 那么 TCP 就 重 传 数据 





延 记 ACK 定时 器 撒 带 方法 发 送 ACK 
方法 发 送 AC 








坚持 定时 器 死 锁 问题 是 通过 发 送 方 在 坚持 定时 器 超时 后 定期 发 送 探测 解决 的 
保 活 定时 器 如 果 连 接 闲 置 了 数 小 时 ， 保 活 定时 器 超时 ， 那 么 TCP 就 发 送 探测 。 如 果 没 有 收 到 响应 ， 
1 正中 


TCP 就 认为 另 一端 已 经 月 溃 





FIN_ WAIT_ 2 定时 带 此 定时 器 避免 将 一 条 连接 永远 留 在 FIN_ WAIT_ 2 状态 ， 如 果 另 一 端 已 经 月 潢 
TIME_ WAIT 定时 器 该 定时 器 用 于 TIME_ WAIT 状态 以 便 进入 CLOSED 状态 








(1) TCP 重 传 定时 器 

TCP 重 传 定时 器 的 作用 已 在 5.3.2 节 和 5.3.4 节 中 介绍 过 ， 本 节 人 研究 RTT 估计 器 的 内 部 设计 。 为 
了 测量 RTT， 发 送 方 使 用 TCP 选项 在 每 个 数据 分 段 放 兽 一 个 时 间 戳 ， 接 收 方 在 ACK 分 段 中 返回 这 些 时 
间 崔 ， 然 后 发 送 方 使 用 减法 就 可 以 测量 每 一 个 ACK 的 准确 RTT。RTT 估计 器 采用 指数 加 权 移 动 平 均 
(EWMA) 方法 ， 它 由 Van Jacobson 于 1988 年 提出 ， 它 取 新 测量 的 RTT1/8 加 上 老 的 平滑 的 RTT 值 的 
7/8， 形 成 新 的 RTT 估计 . 8 为 2 的 指数 值 ， 因 此 此 操作 可 以 通过 一 个 3 位 移 位 指令 轻松 地 完成 。“ 移 
动 平 均 ” 表 示 这 种 计算 是 基于 平均 的 递归 形式 。 同 样 ， 新 的 平均 偏差 是 从 1/4 的 新 测量 和 3/4 以 前 的 
平均 偏差 计算 而 来 的 。4 仅仅 使 用 一 个 2 位 的 移 位 指令 就 可 实现 。 重 传 超 时 (RTO) 是 用 测量 平均 
RTT 和 平均 RTT 偏差 的 线性 函数 计算 的 ， 用 公式 表示 为 RTO = RTT+4 x 偏差 (RTT)。 在 一 条 有 具有 高 
延 训 人 入 差 的 路 径 上 1 ，RTO 会 显著 地 增加 。 

RTT 的 动态 估计 遇 到 的 一 个 问题 是 ， 当 分 段 时 间 过 期 并 且 要 再 次 发 送 时 ， 应 该 如 何 做 ， 当 一 个 确 
认 到 达 时 ， 不 清楚 该 确认 是 指 第 一 次 传输 还 是 稍 后 的 一 次 传输 。 一 个 错误 的 猜测 可 能 会 产 重 地 损害 
RTT 的 估计 。1987 年 Phil Kam 发 现 了 这 个 问题 ， 并 建议 对 有 任何 重 传 的 分 段 不 更 新 RIT。 相反 ，RTO 
在 每 次 重 传 超 时 都 会 增加 一 倍 ， 直 到 分 段 在 第 一 次 时 间 获 得 通过 为 止 。 此 修改 称 为 Kam 算法 


开源 实现 5.5: TCP 重 传 定时 器 

概述 

在 文献 中 ， 用 于 往返 滴答 的 时 钟 默认 值 是 500 毫秒 ， 即 发 送 方 每 500 毫秒 检查 一 次 超时 。 由 于 在 
超时 前 没有 分 组 重 传 ， 所 以 TCP 连接 可 能 需要 很 长 时 间 才 能 从 这 种 情况 中 恢复 ，TCP 性 能 会 严重 退化 ， 
尤其 当 重 传 超时 (RTO) 值 远 远 小 于 500 毫秒 时 ， 在 当前 的 互联 网 下 这 是 很 可 能 出 现 的 。 目 前 在 
Linux 2.6 中 保持 一 个 细 粒 度 的 定时 器 ， 以 避免 这 种 退化 。 

算法 的 实现 

当 有 一 个 来 自 IP 层 的 进入 ACK 时 ， 将 它 传递 到 tcp input. c 中 的 tcp ack() 逊 数 。 那 里 ， 它 通 
过 tcp ack update window() 函数 更 新 发 送 窗口 ， 看 看 是 否 可 以 由 函数 tcp_clean tx queue () 
从 重 传 队列 中 取出 什么 ， 是 否 由 tcp_cong _ avoid () 相 应 地 调整 cwnd。 tcp_clean_rtx_queue () 函 
数 更 新 多 个 变量 ， 并 调用 tcp ack updata rtt() 更 新 RTT 测量。 如 果 使 用 了 时 间 鹤 选项 ， 那 么 函数 
总 是 调用 tcp rtt estimator () 来 计算 平滑 的 RTT， 如 图 5-27 所 示 。 它 通过 tcp set _rto () 函数 使 
用 平滑 的 RTT 来 更 新 RTO 值 。 如 果 没 有 提供 时 间 蕉 选项 ， 那 么 当 到 达 的 ACK 确认 一 个 重 传 的 分 段 时 
就 不 会 执行 更 新 (根据 Karn 算法 )， 
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Im == (tp=>srtt >> 3); /mis now error in rtt est */| 
tp->srtt += m; /* rtt = 7/8 rtt + 1/8 new */ 
if (m < 0) 1{ 

m = -mi /* m is now abs(error) */ 

nm -= (tp-smdev >> 2)7 /* similar Update on mdev */ 
站 《RU 5 Oy 

Se Bs 

|} else 1 

m -== (tp=>mdeév ss 2)7 /* similar update ‘on mdev */ 
} 











图 5-27 Linux 2.6 中 的 RTT 估计 和 器 





tcp rtt estimator() 的 内 容 如 图 5-27 所 示 ， 按 照 Van Jacobson 1988 年 的 建议 (1990 年 他 做 了 
进一步 的 改进 ) 用 来 估计 平滑 的 RTT 值 ， 注 意 ，srtt 和 mdev 分 别 是 调整 过 的 RTT 版 本 和 平均 偏差 ， 
以 便 能 尽快 地 计算 出 结果 按照 RFC 1122 定义 ，RTO 初始 化 为 3 秒 , 而 且 在 连接 中 ， 它 可 以 取 20 ~ 
120 毫米 的 值 。 这 些 值 定义 在 net/tcp.h 文件 中 

在 图 5-27 中 ,，m 代表 RTT 当前 的 测量 值 ，tp 是 指向 tcp sock 数据 结构 的 指针 ， 可 以 在 开源 实现 
5.4 中 看 到 ，mdev 代表 平均 偏差 ，srtt 代表 平滑 RTT 的 估计 值 ， 操 作 数 右 移 3 位 和 除 以 8 相同 ， 同 
理 ， 右 移 2 位 和 除 以 4 相同 

练习 

图 5-27 显示 了 如 何 根 据 m 和 它们 以 前 的 值 来 更 新 srtt 和 mdev， 你 知道 在 哪里 以 及 如 何 设置 
srtt 和 mdev 的 初始 值 ? 


(2) TCP 坚持 定时 器 

TCP 坚持 定时 带 只 是 为 了 蔬 防 以 下 死 锁 : 接收 方 发 送 一 个 接收 窗口 大 小 为 0 的 确认 ， 告 诉 发 送 方 
等 待 。 稍 后 ， 接 收 方 更 新 并 通告 它 的 衫 口 大 小 ,但 是 带 有 更 新 的 分 组 丢失 了 现在 发 送 方 和 接收 方 都 
在 等 答对 方 做 出 行动 ， 这 就 是 死 锁 ， 因此， 当 坚 持 定 时 器 超时 后 ， 发 送 方 就 向 接收 方 发 送 一 个 探测 信 
号 ， 这 个 探测 的 回复 就 途 回 了 窗口 大 小 ， 如 来 窗口 大 小 仍然 是 0， 那 么 坚持 定时 带 就 由 次 设 曾 并 重复 
循环 ; 如 果 不 为 0， 那 么 就 可 以 发 送 数据 了 

(3) TCP 保 活 定 时 器 ( 非 标准 ) 

通过 TCPZP 检测 前 省 的 系统 很 内 难 。 如 采 应 用 程序 不 传送 任何 信息 ，TCP 就 不 需要 在 连接 上 传输 
任何 信息 ，TCPXIP 使 用 的 许多 介质 〈 以 太 网 ) 并 不 提供 可 靠 的 方法 来 判断 是 否 有 一 个 特定 的 主机 打开 
冲 。 如 果 一 台 服 务 顺 没有 从 客户 机 收 到 什么 ,那么 很 可 能 它 什么 都 没 发 送 ， 在 服务 器 和 客户 机 之 间 的 
网 络 可 能 发 生 了 履 阵 ， 服 务 融 和 客户 机 的 网 络 接口 可 能 断 开 了 ， 或 者 客户 机 可 能 已 经 骨 溃 了。 网 络 故 
陪 经 党 是 暂时 的 〈 例 如 ， 当 一 台 路 由 天 发 生 故 陪 后 ,通常 要 花 几 分 钟 来 建立 新 路 径 才 能 稳定 下 来 ) ， 
那么 不 应 该 以 放弃 TCP 连接 而 告终 ， 

保 活 是 API 套 接 字 的 一 个 特征 ， 它 周期 性 地 在 空闲 的 链 路 上 发 送 空 分 组 ， 如 果 远 程 系统 仍然 正常 ， 
就 会 得 到 一 个 确认 ， 如 果 它 重启 时 由 RST 重 财 ， 如 果 它 关闭 时 就 超时 。 直 到 连接 空闲 数 小 时 后 ， 上 述 
这 些 才 会 被 发 送 。 这 样 做 的 口 的 不 是 立即 检测 出 冲突 ， 而 是 让 不 需要 的 资源 不 永远 地 占用 ， 

如 果 震 要 更 快 地 检测 远程 主机 ， 就 应 该 在 应 用 层 协议 中 实现 它 。 目 前 应 用 (如 FTP 和 telnet) 的 大 
部 分 宁 护 进程 可 以 检测 用 户 是 否 空 附 ， 如 果 空 亲 ， 守 护 进程 就 关闭 连接 


开源 实现 5.6: TCP 坚持 定时 器 和 保 活 定时 器 

概述 

在 Linux 2.6 内 核 中 ， 坚 持 定时 器 也 叫做 探测 定时 器 。 它 由 tcp timer.c 中 的 tcp probe timer 
() 函数 维护 ， 而 保 活 定 时 器 由 tcpP timer. c 中 的 tcp keepalive timetr() 函 数 维护 

数据 结构 

为 了 准时 调用 两 个 函数 ， 它 们 应 该 被 挂 接 到 一 个 时 间 链 表 上 -例如 ，tcp keepalive timer () 


储 答 人 - _ - 





通过 inet csk init xmit timers() 挂 接 到 sk- >sk timer 上 。sk timer 是 timer list 结构 ， 
它 的 定义 可 以 在 include/linux/timer.h 文 件 中 找到 ， 这 个 结构 包 eit eh 将 在 时 间 到 
了 的 时 候 被 调用 的 函数 指针 ， 些 外， 使 用 变量 data 保存 将 要 传递 站 夯 各 到 亲 装 - 这 里 的 data 保 存 了 
一 个 指向 对 应 套 接 字 的 指针 以 便 让 tcp keepalive timer () 知 道 检查 哪个 套 接 字 

算法 实现 

tcp probe timer() 调 用 tcp send probe0 () 发 送 一 个 探测 分 组 ， 在 函数 名 中 的 “0” ee 着 
大 小 为 0 的 窗口 被 接收 方 更 新 了 。 如果 探测 器 EN, 那么 发 送 方 将 发 送 一 个 零 窗 Ee 测 分 
它 包 含 甬 发 接收 方 应 答 新 窗口 更 新 的 老 的 序列 号 

保 活 定时 器 的 默认 调用 周期 是 75 秒 。 当 它 被 激活 后 ， 它 检查 每 一 个 建立 的 连接 ， 看 看 是 否 为 空闲 
并 对 它们 发 起 一 次 新 的 探测 ， 对 每 一 个 已 建立 的 连接 ， 探 测 数 默 认 限 制 为 $S。 所 以 ， 如 果 另 一 端的 主 
机 崩 演 但 没有 重启 ， 那 么 探测 发 送 方 就 利用 _keepopen proc () 函数 将 TCP 状态 清 零 ; 如 果 另 一 
端 前 涡 而 且 在 5 次 探测 之 内 就 重启 了 ， 那 么 当 它 接收 到 一 个 探测 分 组 时 它 就 回复 一 个 RST。 然后 探测 
的 发 送 方 就 把 TCP 状态 清 零 

练习 

阅读 net/ipv4/tcp timer. c 弄 清楚 tcp _ probe timer () 在 哪里 以 及 是 如 何 钩 接 的 ， 它 是 直接 
地 钧 住 time list 结构 就 像 tcp keepalive timer() 一 样 吗 ? 





5. 3.7 TCP 性 能 问题 及 增强 
基于 TCP 应 用 的 传送 方式 可 以 分 为 : 1) 交互 式 连接 ; 2) 批量 数据 传输 。 交互 式 应 用 ， 例 如 tel- 
net 和 WWW， 处 理由 连续 的 请 求 和 响应 对 组 成 的 事务 。 相 反 ， 某 些 应 用 具有 批量 数据 传输 ， 例 如 使 用 
FTP 和 P2P 的 下 载 Z 上 传 文件 。 这 两 种 数据 传送 方式 都 有 它们 自己 的 性 能 问题 ， 如 表 5-3 所 示 ， 如 果 还 
使 用 前 面 提 及 的 TCP 版 本 。 林 节 将 介绍 这 些 问题 并 给 出 解决 方案 
表 5-3 ”TCP 问题 和 解决 方案 











传输 类 型 问 题 解决 方案 
交互 式 连接 糊涂 窗口 综 合 症 Nagle 、Clark 
ACK 压缩 Zhang 
;数据 传输 - 
Reno 的 MPL 问题 NewReno, SACK 、FACK 








(DMPL 表示 多 个 分 组 丢失 


(1) 交互 式 TCP 的 性 能 问题 : 糊涂 窗口 综合 症 

对 于 交互 式 事 务 ， 在 TCP 中 基于 窗口 流量 控制 的 性 能 经 历 一 种 著名 的 状态 : 糊涂 窗口 综合 症 
(SWS) 。 当 这 种 症状 发 生 时 ， 小 分 组 通过 连接 进行 交换 ， 而 不 是 整个 数据 分 段 交换 ， 这 就 意味 着 同样 
的 数据 量 要 以 更 多 的 小 分 组 形式 来 发 送 。 由 于 每 个 分 组 有 具有 固定 大 小 的 头 部 开销 ， 所 以 以 小 分 组 方式 
的 传送 意味 着 带宽 的 浪费 ， 这 种 情况 尽管 在 局 域 网 中 无 关 紧 要， 但 在 广域网 中 情况 却 非 常 严 重 。 

SWS 状态 可 以 由 任何 一 端 引 起 。 发 送 方 可 以 发 送 一 个 小 的 分 组 ， 而 不 用 等 待 发 送 应 用 程序 发 送 的 
更 多 数据 以 便 以 完整 尺寸 的 分 组 来 发 送 。 例 如 ，telnet 远程 登录 : 因为 在 远程 登录 中 每 次 按键 都 会 产生 
i ACK， 通 过 WAN 很 长 的 往返 时 间 ， 远 程 登录 会 浪费 全 球 共享 的 WAN 带宽 。 读者 也 可 

会 说 ， 交 互 式 应 用 的 分 组 应 该 立即 发 送 不 管 它们 有 多 小 。 然而， 这 种 分 组 大 约 0.01 ~0. 1s 的 延迟 限 
出 不 会 影响 可 察觉 到 的 交互 性 

接收 方 也 可 能 会 导致 SWS 状态。 接收 方 没有 等 待 以 便 能 从 缓冲 区 中 移动 克 多 数据 到 接收 应 用 程 
序 ， 央 此 就 可 以 通告 一 个 小 于 完整 分 组 大 小 的 接收 窗口 ， 最 终 导 致 SWS 状态 。 我 们 来 看 图 5-28 中 的 
一 个 例子 。 假设 MMS =320 并 且 服 务 器 的 初始 接收 窗口 也 同样 设置 为 320。 和 再 假设 客户 机 总 有 数据 要 
发 送 ， 因 此 服务 怖 非常 已 ， 每 收 到 4 字 节 的 数据 它 只 能 从 缓冲 区 中 移 走 工 字 节 。 这 个 例子 的 工作 
如 下 : 
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客户 机 服务 器 


RWND = 320 


Fy 


2. 接 收 分 段 ; 发 送 Ack， 将 
窗口 缩减 到 80 





4 接收 分 段 ; 发 送 Ack， 将 
窗口 缩减 到 40 





6 .接收 分 段 ; 发 送 Ack， 将 
窗口 缩减 到 30 





图 5-28 ”由 接收 方 造成 的 糊涂 窗口 综合 症 

1) 客户 机 窗口 大 小 为 320， 所 以 它 可 以 立即 给 服务 器 发 送 320 字 节 的 分 段 。 

2) 当 服 务 器 接收 到 这 个 分 段 后 ， 它 就 确认 这 个 报 文 。 由 于 只 移 走 了 80 字 节 ， 所 以 服务 器 将 窗口 
大 小 从 320 缩小 到 80， 并 且 在 ACK 中 声明 RWND 为 80。 

3) 客户 机 接收 到 这 个 ACK 后， 知道 窗口 大 小 减 小 到 80， 因 此 它 发 送 80 字 节 的 分 段 。 

4) 当 80 字 节 的 分 段 到 达 时 ,缓冲 区 中 就 包含 220 字 节 (第 一 个 分 段 共有 240 字 节 ， 并 且 假 设 在 
传播 延迟 中 另 有 20 字 节 被 移 走 ) 。 然 后 服务 器 立即 处 理 80 字 节 中 的 1M4， 即 20 字 节 ， 所 以 将 60 字 节 
加 入 到 缓冲 区 中 。 然 后 服务 器 发 送 一 个 带 有 RWND =40 的 ACK。 

5) 客户 机 接收 到 这 个 ACK 后 ， 知 道 窗 口 大 小 减 小 到 40， 因 此 它 发 送 一 个 40 字 节 的 分 段 。 

6) 服务 器 在 传播 延迟 期 间 移 走 20 字 节 ， 留 下 260 字 节 在 缓冲 区 中 。 服 务 器 从 客户 机 那儿 接收 到 
40 字 节 的 分 段 ， 移 走 1/4 即 10 字 节 ， 所 以 30 字 节 又 加 入 到 缓冲 区 中 ,缓冲 区 中 有 290 字 节 ， 因 此 服 
务 器 就 把 窗口 大 小 从 320 字 节 减 小 到 30 字 节 : 

糊涂 窗口 综合 症 的 解决 方案 

为 了 阻止 发 送 方 引 起 SWS，1984 年 John Nagle 提出 了 一 种 简单 但 优秀 的 算法 ， 称 为 Nagle 算法 ， 
这 个 算法 在 带宽 饱和 时 减少 发 送 分 组 的 数量 : 没有 未 经 确认 的 数据 时 就 不 发 送 小 的 新 的 分 段 。 相 反 ， 
TCP 将 小 的 分 段 收 集 到 一 起 当 ACK 到 达 时 再 一 起 发 送 。 收 集 受 到 RTT 往返 时 间 的 限制 ， 因 此 不 会 受到 
互动 的 影响 。Nagle 算法 的 优秀 归功 于 它 的 自 同步 行为 : 如 果 ACK 回来 得 很 快 ， 带宽 就 可 能 很 大 以 致 
于 分 组 发 送 得 也 很 快 ; 如 果 ACK 回来 花 了 很 长 的 RTT 时 间 ， 这 意味 着 是 窄带 路 径 ，Nagle 算法 就 会 通 
过 发 送 完整 大 小 的 分 段 来 减少 小 分 段 的 数量 。Nagle 算法 的 伪 代 码 如 图 5-29 所 示 。 

另 一 方面 ， 为 了 防止 接收 方 进入 SWS 状态 ,使 用 David D. Clark 在 1982 年 提出 的 解决 方案 。 通 告 
声明 会 被 延迟 直到 接收 方 缓冲 区 有 一 半 是 空 的 或 能 够 装 下 整个 分 段 ， 因 此 它 为 发 送 方 保证 了 一 个 大 窗 
1 通告。 当然 延迟 也 是 受 限制 的 。 
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if there is new data to send 
if window size >= MSS and available data >= MSS 
send complete MSS segment 
else 
if there is outstanding data and queued data live time <threshold 
enqueue data in the buffer until an ACK is received 
else | 
send data immediately 
endif 
endif 
endif 











图 5-29 ”Nagle 的 算法 
(2) 批量 数据 传输 的 性 能 问题 
基于 和 窗口 流量 控制 的 批量 数据 传输 的 性 能 可 以 用 带宽 延迟 乘积 (BDP) 和 管道 大 小 很 好 地 理解 
在 图 5-30 中 ， 我 们 可 以 看 到 一 条 由 前 回 传 输 数 据 信道 和 反 向 ACK 信道 组 成 的 全 双 工 端 到 端 TCP 网 络 
管道 。 可 以 将 一 条 网 络 管道 功能 想象 成 一 根 水 管 ， 它 的 宽 和 长 分 别 对 应 于 带宽 和 RTT。 利 用 这 种 比喻 ， 
管道 尺寸 就 对 应 于 可 以 在 水 管 中 传 输 的 水 。 如 果 全 双 工 信道 总 是 满 的 ， 就 可 以 容易 地 导出 这 样 连接 的 
性 能 : 


发 送 方 慢 速 链 路 









正确 间隔 


ACK 具 有 






[La 国 
图 5-30” 端 到 端 全 双 工 网 络 管道 的 可 视 化 
Throughput (吞吐 量 ) =pipe size (管道 尺寸 ) /RTT (5-1) 
直观 地 说 , 式 (5-1) 意味 着 在 RTT 时 间 内 管道 中 可 以 传输 的 数据 量 。 当 然 存 吐 量 等 于 管道 的 带 
宽 。 然 而 ， 管 道 并 不 是 总 是 满 的 。 当 TCP 连接 局 动 并 且 遇 到 分 组 丢失 时 ，TCP 发 送 方 将 调整 其 窗口 以 
适应 网 络 拥塞 。 在 TCP 填 满 管道 之 前 ， 它 的 性 能 如 下 : 


[a 4 
知 叶 量 = 归 村 守 入 要 min (CWND, RWND) /RTT (S52) 


式 (5-1) 和 式 (5-2) 指出 : 如 果 TCP 连接 的 RTT 是 固定 的 ， 那 么 连接 耕 吐 量 就 会 受到 管道 容量 
(管道 尺寸 ) 、 接 收 方 缓冲 区 (RWND) 、 网 络 状态 (CWND) 的 约束 。 也 就 是 说 , 式 (5-1) 是 连接 厂 
吐 量 的 上 限 。 

因为 更 好 的 性 能 说 明 更 有 效 地 利用 网 络 管道 ， 填 充 管 道 的 过 程 严重 影响 其 性 能 。 图 5-31 演示 了 使 用 
TCP 填充 网 络 管道 的 步 又- 图 5-31 (1) ~ (6) 演示 了 第 一 个 分 组 从 左边 传送 到 右边 和 从 接收 方向 发 送 
方 传输 的 ACK。 在 接收 到 ACK 后 ， 发 送 方 把 拥塞 窗口 提高 到 2， 如 $-31 (7) 所 示 。 这 个 过 程 继续 就 像 
图 5-31 接 下 来 显示 子 图 那样 。 在 拥塞 窗口 到 达 6 (如 图 5-31 (35) 所 示 ) 后 ， 网 络 管道 就 满 了 。 

注意 利用 TCP 的 批量 数据 传输 的 存 吐 量 可 以 建 模 成 多 个 参数 ( 如 RTT 和 分 组 丢失 率 的 函数 )。 这 
个 领域 的 发 展 是 以 能 够 精确 地 预测 TCP 源 的 吞吐 率 作为 目标 。 主 要 挑战 在 于 我 们 如 何 解 释 以 前 取样 的 
分 组 丢失 事件 以 便于 预测 TCP 连接 的 未 来 性 能 。 分 组 丢失 之 间 的 间隙 既 可 以 是 独立 的 也 可 以 是 相关 的 ， 
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图 5-31 使 用 TCP 填充 管道 的 步 又 

在 Padhye 的 工作 中 ,使 用 了 一 个 易于 理解 的 模型 ， 它 不 仅 考 虑 通过 快速 重 传 算法 恢复 天 失 的 分 组 而 且 
还 通过 超时 重 传 恢复 的 分 组 

下面 我 们 将 学 习 批 量 数据 传输 中 过 到 的 两 种 主要 性 能 问题 ，ACK 压缩 问题 和 TCP Reno 的 多 分 组 天 
失 问 题 ， 并 讨论 了 有 关 建 议 或 解决 方案 

ACK 压缩 问题 

在 图 5-32 中 ， 全 双 工 管道 仅 人 包括 来 自 左 边 发 送 方 的 数据 流 ， 所 以 ACK 之 间 的 间 隅 定义 为 能 够 触 
发 发 送 人 然而 ， 当 也 有 来 自 右 边 产 生 的 分 组 流 时 ， 如 图 5-32 所 示 并 与 
图 5-30 进行 比较 ， 因 为 ACK 在 反 向 管道 中 可 以 与 数据 流 混合 在 同一 个 队列 中 ， 所 以 连续 的 ACK 就 
可 能 不 正确 地 人 分隔。 因为 一 个 大 分 组 的 传送 时 间 远 远大 于 64 字 季 的 ACK， 所 以 ACK 能 够 周期 性 地 
不 缩 成 串 ， 并 且 造 成 发 送 方 突 发 数据 流量 ， 导 致 中 间 路 由 器 队列 长 度 有 很 大 的 波动 在 数据 分 组 中 
撒 审 ACK 可 以 减轻 ACK 不 缩 问题 。 但 是 ， 因 为 端 到 端 信道 实质 上 是 由 途 跳 系统 串联 调 成 ， 所 以 中 间 
下 联网 路 由 需 中 的 穿 叉 流量 也 会 引起 这 种 现象 

日 前 还 没有 明确 的 方法 来 解决 ACK 压缩 问题 。1991 年 Zhang、Shenker、Clark 建议 利用 TCP 发送 
方 调整 发 送 数据 分 组 的 速度 而 不 仅 依赖 ACK 时 钟 来 减轻 这 种 现象 。ACK 时 钟 已 经 证 明 是 无 效率 的 ， 如 
图 $-32 所 示 

发 送 方 





上 正确 间隔 


| wa | 方 AC 芭 肝 有 有 本 接收 方 


正确 的 间隔 i 间 队 导致 


| 数据 转 ACK 


图 5-32 ACK 订 缩 现象 
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TCP Reno 的 多 分 组 丢失 问题 

在 Reno 中 ， 当 一 个 窗口 发 生 多 分 组 玉 失 时 ， 接 收 方 总 是 刊 用 重复 ACK 作为 响应 ， 因 为 发 送 方 假 
设 每 个 RTT 最 多 只 有 一 个 新 的 天 失 。 因 此 ， 在 这 种 情况 下 ， 发 送 方 必须 花费 多 个 RTT 来 解决 所 有 这 些 
丢失” 同时 ， 重 传 超时 更 加 频繁 ， 因 为 尽管 有 许多 术 被 确认 的 分 组 等 待 重 传 , 但 只 有 少数 的 分 组 (由 
于 快速 恢复 触发 的 cwna 的 减少 而 限制 ) 才能 发 送 。 让 我 们 来 浏览 图 5-33 中 描述 的 例子 ,接收 了 分 组 
30 的 确认 号 后 ， 发 送 方 就 发 送 分 组 31 ~38 的 分 组 。 再 次 为 了 清晰 起 见 ，ACK 分 组 中 的 确认 号 是 接收 
到 的 分 组 的 序列 所 而 不 是 接收 方 期 望 接收 的 下 一 个 分 组 的 序列 号 


38 37 36 35 34 33 2 3 
网 cwnd=8 
(1) awnd=8 
cwnd=8 
awnd=8 
31 3 65 3 3 
:wnd=7 发 送 方 收 到 3 个 重复 的 ACK，ewnd 更 改 为 
G) 8 a (822)43 个 分 组 
aw 
重 传 丢失 的 分 段 31 
cwnd=9 轩 六 当 接 收 方 收 到 重 传 的 分 段 31 时 ， 它 回答 
(4) > awnd=8=9 中 ACK (ack num=33)， 这 是 部 分 ACK 


当 发 送 方 接收 到 部 分 ACK 时 ， 就 退出 快 
速 恢复 并 进入 拥塞 避免 状态 ，cwnd 更 改 
为 4 个 分 段 
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发 送 方 发 送 分 段 31-38 
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D 接收 方 呵 答 5 个 重复 的 ACK(ack num 31) 














D 发 送 方 等 待 直 到 超时 为 止 
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加 :数据 分 段 : 丢失 的 分 段 [ : 重复 的 ACK 图 :部 分 ACK 
图 5-33 ”Reno 的 多 分 组 丢失 问题 

假设 拥塞 窗口 cwng 等 于 8 个 分 组 ， 而 且 分 组 31、33 和 34 在 传送 过 程 中 丢失 了 。 因 为 接收 到 了 分 
组 32、35、36 、37 、38 ， 所 以 接收 方 将 为 对 丢失 的 分 组 31 发 送 5 个 重复 的 ACK。 当 发 送 方 接收 到 第 3 
个 重复 的 ACK (ack num =3) 时 ， 它 认识 到 分 组 31 丢失 了 ， 然 后 它 立 即将 cwnd 设 为 [8/2] +3 =7 
个 分 组 并 重 传 丢失 的 分 组 。 在 收 到 男 外 两 个 重复 的 ACK 后 ， 发 送 方 继续 将 cwnd 增加 2 并 发 送 一 个 新 
的 分 组 39。 在 收 到 ACK (ack num =33) 后 ,发 送 方 从 快 恢复 迁移 到 拥塞 避免 ， 并 将 cwna 设置 为 4 个 
分 组 ， 然后， 发 送 方 接收 一 个 重复 的 ACK (ack num=33)。 当 cwnd=4、awnd=7 (40 -33) 时 ,发 
送 方 停止 发 送 任何 导致 超时 重 传 的 数据 

注意 ， 当 在 一 个 数据 窗口 中 丢失 多 个 分 段 时 ，Reno 并 不 总 是 超时 。 当 cwna 非常 大 的 情况 下 发 生 
多 个 天 失事 件 时 ， 任 何 部 分 ACK 可 能 不 仅 使 Reno 退出 快速 恢复 ， 而 且 还 会 由 于 另外 一 批 三 个 重复 的 
ACK 而 触发 另 一 个 快速 重 传 ， 到 目前 为 止 这 些 还 能 满足 要 求 ， 尽 管 它 会 减 慢 丢失 恢复 。 但 是 ， 如 果 太 
多 的 分 组 在 一 个 RTT 内 丢失 ,那么 将 会 引起 cwna 在 下 一 个 RTT 内 减 半 很 多 次 以 至 于 太 少 的 未 经 确认 
的 报 文 在 管道 中 而 不 能 触发 下 一 次 快速 重 传 ，Reno 将 超时 ， 这 将 进一步 延长 丢失 恢复 

为 了 减轻 多 个 分 组 丢失 问题 ，NewReno 和 SACK (选择 性 确认 ， 定 义 在 RFC 1072 中 ) 版 本 通过 丙 
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种 不 同 的 途径 去 解决 这 个 问题 ， 前者， 一 旦 接收 到 部 分 确认 ， 发 送 方 就 会 继续 使 用 快速 恢复 算法 而 不 
是 回 到 拥塞 避免 算法 ， 另 一 方面 ，SACK 修改 接收 方 的 行为 以 便 告 诉 发 送 方 已 经 接收 到 一 组 不 连续 的 
数据 并 进行 了 排队 ， 在 重复 确认 中 还 附带 了 和 突 外 的 SACK 选项 。 利 用 SACK 选项 中 的 信息 ， 发 送 方 束 
可 以 正确 快速 地 重 传 天 失 的 分 组 。Mathis 和 Mahdavi 又 提出 了 转发 确认 (FACK) 来 改进 SACK 中 的 快 
速 恢复 方案 。 与 继续 完善 快速 重 传 和 快速 恢复 算法 的 NewReno/SACKZFACK 相 比 ，1995 年 提出 的 TCP 
vegas， 使 用 细 粒 度 RTT 来 辅助 检测 分 组 丢失 和 拥塞 ， 因 此 减少 了 Reno 超时 的 可 能 性 。 


历史 演变 : NewReno、SACK、FACK 和 Vegas 算法 中 的 多 分 组 丢失 恢复 

这 里 我 们 更 加 细致 深入 地 分 析 Reno 的 MPL 问题 如 何在 NewReno、SACK、FACK 和 Vegas 中 得 到 组 
解 ， 使 用 如 图 5-33 所 示 的 同一 个 例子 

TCP Reno 问题 的 解决 方案 1: TCP NewReno 

NewReno 的 标准 化 文件 是 RFC 2582， 它 修改 了 Reno 快速 恢复 阶段 以 便 缓 解 MPL 问题 。 仅 当 发 送 
方 检测 到 第 一 个 丢失 分 组 之 前 接收 到 确认 最 后 发 送 分 组 的 ACK 时 ， 它 才 会 脱离 原始 的 快速 恢复 。 在 
NewReno 中 ， 这 种 退出 时 间 定 义 为 “快速 恢复 的 终止 点 ”， 同 时 任何 在 此 时 间 之 前 的 非 重 复 ACK 都 被 
当做 部 分 ACK 确认 

Reno 将 部 分 ACK 确认 当做 是 丢失 分 组 的 一 次 成 功 重 传 ， 因 此 发 送 方 返回 到 拥塞 避免 以 便 发 送 新 
的 分 组 。 相 反 ，NewReno 认为 这 是 一 种 进一步 发 生 分 组 丢失 的 信号 ， 因 此 发 送 方 立即 重 传 丢失 的 分 组 。 
当 部 分 ACK 到 达 后 ， 发 送 方 通过 减 去 新 数据 的 确认 总 量 并 增加 一 个 用 于 重 传 数 据 的 分 组 来 调整 cwnd 
发 送 方 仍然 在 快速 恢复 中 直到 快速 恢复 的 终止 点 为 止 。 因 此 当 数 据 窗口 中 丢失 多 个 分 组 时 ，NewReno 
就 把 它们 恢复 而 不 会 发 生 超 时 重 传 ， 

对 于 图 5-33 所 示 的 相同 例子 ， 当 在 第 4 步 中 重 传 的 分 组 31 被 收 到 时 ， 就 发 送 部 分 ACK (ack 
num=33)。 图 $-34 阐释 了 NewReno 的 改进 。 当 发 送 方 接收 到 部 分 ACK (ack num =33) 后 ， 它 立即 
重 传 丢失 的 分 组 33 并 且 将 cwnd 设置 为 (9 -2+1) =8， 其 中 2 是 新 确认 的 数据 数量 (分 组 31 和 
32) ，1 代表 已 经 退出 管道 的 重 传 分 组 。 类似 地 ， 当 发 送 方 收 到 部 分 ACK (ack num =34) 时 ， 它 就 
立即 重 传 丢失 的 分 组 34。， 直 到 分 组 40 的 ACK 被 接收 到 时 ， 发送 方 成 功 地 退出 快速 恢复 而 不 会 发 生 
任何 超时 

TCP Reno 问题 的 解决 方案 2: TCP SACK 

尽管 NewReno 缓解 了 多 个 分 组 丢失 问题 ,但 发 送 方 仅 会 得 知 在 一 个 RTT 中 一 个 新 丢失 的 分 组 。 然 
而 ， 在 RFC 1072 中 提出 的 SACK 选项 解决 了 这 个 问题 。 发 送 方 通过 结合 SACK 选项 来 传送 重复 的 ACK 
作为 对 失 序 分 组 的 响应 。RFC 2018 重新 定义 了 SACK 选项 ， 准 确 地 描述 了 发 送 方 和 接收 方 的 行为 。 

SACK 选项 用 于 报告 接收 方 成 功 接收 不 连续 的 数据 块 ， 通 过 每 个 块 内 的 第 一 个 和 最 后 一 个 分 组 的 
两 个 序列 号 。 由 于 TCP 选项 长 度 的 限制 ， 在 一 个 重复 的 ACK 中 有 SACK 选项 的 最 大 数 。 第 一 个 SACK 
选项 必须 报告 最 后 收 到 的 数据 块 ， 其 中 包含 触发 这 个 ACK 的 分 组 。 

SACK 直接 调整 awnd 而 不 是 cwnd。 因 此 一 旦 进入 快速 恢复 ，cwnd 就 被 减 半 并 在 这 一 阶段 固定 下 
来 。 无论 发 送 方 发 送 一 个 新 分 组 还 是 重 传 一 个 老 的 分 组 ，awnd 都 增 1。 然 而 ， 当 发 送 方 接收 到 一 个 带 
有 SACK 选项 ， 指 示 新 数据 已 收 到 重复 ACK 时 ，awnd 都 减 1。SACK 发 送 方 也 以 特殊 的 方式 处 理 部 分 
ACK。 也 就 是 说 ， 发 送 方 将 awnd 减 2 而 不 是 减 1， 因 为 一 个 部 分 ACK 代表 两 个 离开 网 络 管道 的 分 组 : 
一 个 原始 分 组 (假设 已 经 丢失 ) 和 一 个 重 传 的 分 组 。 

图 5-35 说 明了 SACK 算法 的 一 个 例子 。 每 个 重复 ACK 都 包含 成 功 接 收 到 的 数据 块 信息 。 当 发 送 方 
接收 了 3 个 重复 ACK 后 ， 它 就 知道 分 组 31、33 和 34 丢失 。 因 此 ， 如 果 条 件 允 许 ， 发 送 方 就 会 立即 重 
传 丢失 的 分 组 

TCP Reno 问题 的 解决 方案 3: TCP FACK 

FACK 是 作为 一 种 SACK 的 辅助 而 提出 的 ， 在 FACK 中 ， 发 送 方 利 用 SACK 选项 来 确定 已 收 到 的 最 
前 面 的 分 组 ， 最 前 面 的 分 组 意味 着 正确 收 到 的 最 大 序号 的 分 组 。 为 了 提高 精确 度 ，FACK 将 awng 估计 
为 : awnd = snd. nxt-snd. fack +retran data， 其 中 snd. fack 是 在 SACK 选项 中 报告 的 最 前 面 的 















































伟 葵 尾 5 
(1) D 发 送 方 发 送 分 段 31~38 
(2) Ss D 接收 万 回答 以 5 个 重复 
的 ACK (ack num=31) 
31 al 
发 送 方 收 到 3 个 重复 的 ACK， 
(3) cewnd 更 改 为 (8/2)+3 个 分 组 ， 
重 传 丢 失 的 分 段 31 
当 接 收 方 收 到 重 传 的 分 段 31 时 
_ ad 和 接收 方 收 到 重 传 ， 
和 D 就 应 答 ACK (ack num=33) 
加 这 是 部 分 ACK 
发 送 方 收 到 部 分 ACK (ack num=33) 后， 
(5) 就 立即 重 传 丢失 的 分 段 33， ewnd 更 改 
为 9_2+1 
二 发 送 方 接收 到 一 个 重复 的 ACK 并 将 
S | cwnd=9 cwnd 加 1， 因 此 分 段 41 被 发 送 。 接 收 
(0) ”| awnd=8->9 D 方 应 答 以 一 个 部 分 ACK 和 一 个 重复 
的 ACK (ack num=34) 
34 疆 
- 部 分 ACK 般 发 发 送 方 重 传 分 段 34 
[Ci wo 并 将 awnd 缩 减 为 8(41-33)。 接收 
awnd=9->8 方 一 旦 收 到 分 段 41， 就 回答 一 个 
| ACK (ack num=34) 
一 一 避 收 到 重复 的 ACK (ack num=34). 
(8) 5S es D cwnd 就 前 进 1 。 由 于 awnd 比 cwnd 小 ， 
所 以 就 发 送 两 个 新 的 分 段 
34 
44 43 42 34 
(9) 9 cwnd=11 Dy -日 收 到 重复 的 ACK (ack num=34). 
awnd=10->11 ewnd 就 前 进 1 ， 因 此 触发 分 段 4H 
cwnd=11 接收 方 应 答 ACK (ack num=42、 
S D A | 
(10) 5 |awnd=10->11 43、44 和 45) 
发 送 方 一旦 接收 到 ACK (ack num=42)， 
(1D) 就 退出 快速 恢复 。 将 ewnd 和 awnd 被 重 
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置 为 4 


国 :丢失 的 分 段 日 :重复 的 ACK 上] :部 分 ACK 
图 5-34 ”对 TCP Reno 问题 的 解决 方案 1: NewReno 


分 组 加 1，retran data 是 经 过 前 面 的 部 分 ACK 后 重 传 的 分 组 数 。 由 于 发 送 方 需 要 很 长 时 间 等 待 3 个 
重复 的 ACK， 所 以 FACK 会 更 早 进 入 快速 恢复 。 也 就 是 说 ， 当 ( snd. fack -snd. una) >3 时 ， 发 送 方 


就 不 用 等 待 有 3 个 重复 的 ACK， 可 以 进入 快速 恢复 

图 5-36 描述 了 FACK 的 改进 。 发 送 方 在 接收 到 第 二 个 重复 的 ACK 时 就 发 起 重 传 ， 因 为 (snd. fack 
-snd. una)， 即 (36 -31) =53>3。 丢 失 的 分 组 在 FACK 中 比 在 SACK 中 更 快 重 传 ， 因 为 前 者 计算 
awnd 更 加 准确 。 因 此 ， 在 图 $-36 中 ， 显 然 未 经 确认 的 分 组 数量 稳定 为 4 
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7 收 人 到 分 段 30 的 ACK 






























首发 送 分 段 31 38 
(2) cwnd=8 D 接收 方 发 送 5 个 带 有 SACK 选 项 
六 awnd=8 的 重复 ACK (ack num=31) 
SACK 选项 : © (32,32: 0，0; 0.0) 
Q@ (35,35; 32, 32; 0, 0) 
@ (35. 36; 32, 32: 0,0) 
@ 35,37:32, 32:0,0) 
©®@ (35,38: 32. 32; 0.0) 
” 发 送 方 收 到 重复 ACK 并 且 开 始 重 传 
商 cwnd=4 在 SACK 选 项 中 报告 的 丢失 分 段 
隐 awnd=6 将 awnd 设 置 为 8-311 03 个 重复 的 ACK 
二 和 一 个 重 传 的 分 段 ) 
(4) 接收 方向 接收 到 的 重 传 分 段 应 答 以 部 分 ACK 
(8S cwnd=4 发 送 方 收 到 部 分 ACK， 将 awnd 减 2， 因 此 重 传 
awnd=2->4 两 个 丢失 的 分 段 
(6) 接收 方 对 于 重 传 的 分 段 应 答 以 ACK 
42 41 40 39 
(7) 发 送 方 在 接收 到 ACK (ack num=39) 后 ， 


就 退出 快速 恢复 


丢失 的 分 段 | ] :重复 的 ACK 上 ] :部 分 ACK 
图 5-35 对 TCP Reno 问题 的 解决 方案 2: TCP SACK 选项 

TCP Reno 问题 的 解决 方案 4: TCP Vegas 

Vegas 首先 修改 了 Reno 触发 快速 重 传 的 时 机 。 一 旦 接收 到 重复 的 ACK， 通 过 检测 当前 时 间 和 相关 
分 组 发 送 时 间 之 差 加 上 最 短 RTT 是 否 比 超时 值 大 ，Vegas 决定 是 否 触 发 快速 重 传 。 如 果 大 ，Vegas 就 不 
等 待 更 多 的 重复 ACK 到 达 ， 就 立即 触发 快速 重 传 。 这 种 改进 可 以 避免 一 种 情形 :发 送 方 永 远 接收 不 到 
3 个 重复 的 ACK， 因 此 就 必须 依赖 于 粗 粒 度 的 重 传 超时 

经 过 重 传 后 ， 发 送 方 通过 检查 未 确认 分 组 的 细 粒 度 超 时 来 判断 是 否 有 多 个 分 组 丢失 。 如 果 发 生 了 
超时 ， 发 送 方 就 立即 重 传 分 组 而 不 需要 等 待 任何 重复 ACK 的 到 达 

事实 上 ，TCP Vegas 也 利用 细 粒 度 RTT 来 改进 拥塞 控制 机 制 . 与 对 分 组 丢失 做 出 响应 然后 再 降低 
发 送 谏 率 来 缓解 拥塞 的 Reno 相 比 ，Vegas 尝试 预测 拥塞 ， 然 后 及 早 减 少 发 送 速 率 以 便 避 免 拥 塞 和 分 组 
丢失 。 为 了 预测 拥塞 ，Vegas 在 连接 期 间 跟 踪 最 短 的 RIT， 然 后 把 它 保存 在 一 个 名 为 BaseRTT 的 变量 
中 ， 然 后 ， 用 awnGd 除 以 BaseRTT，Vegas 了 解 到 期 望 的 发 送 速 率 ， 标 记 成 Expected (期 望 值 ) ， 连 接 可 
以 使 用 此 值 而 不 会 造成 分 组 在 路 径 上 的 排队 等 待 。 下 一 步 ，Vegas 将 预期 发 送 率 (Expected) 与 标记 为 
Actual 的 当前 实际 发 送 率 进行 比较 ， 然 后 相应 地 调整 awnd， 假设 Dif = Expected - Actual 并 给 出 两 个 阁 
值 a<b， 单 位 为 KB/s。 当 Diff <a 时 Vegas 中 的 cwnd 在 每 个 RTT 中 会 增 1 即 (cwnd+1) /RTT; 当 
Diff >4 时， 每 个 RTT 将 Vegas 中 的 cwnd 减 1; 如 果 a<Dif<b， 则 cwnd 保持 不 变 ， 
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发 送 方 收 到 分 段 30 的 ACK 
并 发 送 分 段 31-38 





(1) 











(a 5 | wus 接收 方 使 用 SACK 选 项 发 送 5 个 
awnd=8 回 ES 重复 ACK (ack num=31) 











SACK 选 项 : © 032,32: 0. 0: 0.0) 
@ (35.,35; 32, 32; 0,0) 
@ (35, 36; 32. 32; 0.0) 
@ 35,37;32, 32;0,0) 
© 
发 送 方 收 到 两 个 重复 的 ACK 后 ， 
(3) 开始 重 传 在 SACK 选 项 中 报告 的 
丢失 分 段 
(4) 发 送 方 计算 awnd 为 收 到 重复 的 ACK. 
并 继续 发 送 允 这 的 分 组 
0 
d= p ST 
9) 机 D 。 接收 方 回答 ACK 
列 59 4 
43 42 341 
cwnd=4 D 发 送 者 在 收 到 ACK(ack num=39) 
(0 awnd=4 后 退出 快速 恢复 


| :丢失 的 分 段 [] :重复 的 ACK [ ] :部 分 ACK 
图 5-36 ”对 TCP Reno 问题 的 解决 方法 3: TCP FACK 修改 
调整 发 送 率 将 Diff 维持 在 a 和 4b 之 间 ， 表示 Vegas 连接 平均 占用 的 网 络 缓 冲 区 至 少 为 a 字 节 / 秒 才 
能 最 佳 利用 带宽 ,并 且 最 多 为 0 字 节 / 秒 以 避免 网 络 过 载 。 按 照 Vegas 算法 作者 的 建议 ,a 和 0b 分别 设 
为 1 倍 和 3 倍 的 MSS/BaseRTT 





站 :数据 分 段 


行动 原则 : TCP 用 于 具有 巨大 带宽 延迟 乘积 的 网 络 

随 着 网 络 技术 的 进步 ， 链 路 容量 不 断 提 高 ， 会 产生 一 条 带 有 大 带宽 延迟 乘积 的 网 络 路 径 ， 这 就 是 
路 径 带宽 和 它 的 RTT 的 乘积 。 这 种 网 络 的 一 个 例子 就 是 卫星 连接 ， 在 这 种 情况 下 ，RTT 非常 大 ， 链 路 
带宽 也 可 能 非常 高 

在 这 种 网 络 中 使 用 传统 的 TCP 性 能 会 非常 差 ， 因 为 它 不 可 能 充分 利用 可 获得 的 带宽 。 如 果 发 送 方 
能 够 发 送 超过 带宽 延迟 乘积 的 足够 大 的 未 经 确认 的 数据 ， 协 议 只 能 取得 最 佳 吞吐 量 ， 如 果 发 送 的 数据 
量 不 够 多 ， 那 么 这 条 路 径 就 不 能 保持 忙 ， 协 议 只 能 在 路 径 的 峰值 效率 之 下 工作 。 然 而 ， 在 一 个 有 着 大 
带宽 延迟 乘积 的 网 络 中 ， 这 种 无 效率 状态 很 可 能 会 出 现 。 有 些 新 的 TCP 拥塞 控制 方案 ， 如 BIC、CU- 
BIC、FastTCP 和 HighSpeedTCP 都 尝试 解决 这 个 问题 。 它 们 在 提高 传送 速率 方面 有 很 大 进步 ， 当 遇 到 分 
组 丢失 时 会 后 退 但 会 很 快 又 重新 开始 加 速 传输 。 

在 BIC 中 使 用 的 最 重要 的 组 件 就 是 二 进 制 搜索 递增 。 当 分 组 丢失 事件 发 生 时 ，BIC 就 减 小 它 的 窗 
口 。 窗 口 大 小 在 减 小 前 ， 设 置 为 最 大 ; 在 减 小 后 ， 窗 口 大 小 设 为 最 小 。 然 后， 通过 快速 跳 转 到 “ 目 
标 ”BIC 执行 二 进 制 搜索 ， 目 标 就 是 在 最 大 和 最 小 窗口 之 间 的 中 间 点 。 按 照 分 组 是 否 会 发 生 丢失 ， 将 
最 大 值 或 最 小 窗口 设置 成 无 限期 的 。 当 目前 窗口 大 小 与 目标 窗口 大 小 之 差 很 大 时 ， 二进制 搜索 递增 允 
许 BIC 更 快 地 进行 ， 当 两 个 窗口 大 小 的 差距 缩小 时 ， 为 了 TCP 公平 ， 它 强制 协议 放 缓 实现 。 

CUBIC 使 用 一 种 更 简单 的 函数 ， 一 种 立方 函数 ， 其 形状 与 BIC 窗口 曲线 很 相似 ， 以 实现 同样 的 目 
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标 ， 这 种 函数 在 接近 目标 窗口 时 比 二 进 制 搜索 递增 慢 很 多 。 快 速 TCP 测量 排队 延 退 而 不 是 用 丢失 概率 
来 判断 网 络 中 是 否 出 现 拥塞 。 通 过 测量 这 个 因素 ， 它 比 TCP 更 快 地 增 大 拥塞 窗口 。 当 HS-TCP 到 达 一 
个 窗口 阅 值 时 ， 它 也 急剧 地 增 大 拥塞 窗口 ， 因 此 它 可 以 更 快 地 响应 对 可 获得 带宽 的 更 改 。 它 使 用 一 张 
表 来 判断 什么 因素 决定 增 大 拥塞 窗口 


5.4 和 套 接 字 编 程 接口 

网 络 应 用 程序 使 用 由 底层 协议 提供 的 服务 来 执行 特殊 目的 的 网 络 互联 任务 。 例 如 ，telnet 和 ftp 
等 应 用 程序 使 用 由 传输 层 提供 的 服务 ; ping、traceroute 和 arp 直接 使 用 由 IP 层 提供 的 服务 ; 分 
组 捕获 应 用 程序 直接 运行 在 链 路 层 协 议 之 1:， 它 能 够 配置 成 捕获 整个 分 组 ， 包 括 链 路 协议 头 部 。 在 本 
季 中 ,我 们 将 学 习 Linux 如 何 为 编程 上 述 的 应 用 程序 而 实现 套 接 字 接 口 ，. 


5.4.1 套 接 字 

套 接 字 是 一 个 对 通信 信道 端点 的 抽象 。 顾名思义 , “ 端 到 端 ” 协 议 层 控制 着 信道 两 端 之 间 的 数据 
通信 。 端点 是 由 网 络 应 用 程序 使 用 适当 类 型 的 套 接 字 API 创建 的 。 然 后 网 络 应 用 程序 就 可 以 在 该 套 接 
学 上 执行 一 系列 操作 。 在 套 接 字 上 可 以 执行 的 操作 包括 控制 操作 (例如 ,将 端口 号 与 套 接 字 关联 起 来 、 
在 套 接 字 上 发 起 或 接受 连接 ,或 者 释放 套 接 字 ) 、 数 据 传输 操作 (例如 ， 通 过 套 接 字 将 数据 写 入 到 某 
些 对 等 应 用 程序 ， 或 者 通过 套 接 字 从 某 些 对 等 应 用 程序 上 读 取 数据 ) ， 以 及 状态 操作 ( 如 查找 与 套 接 
字 关 联 的 I 了 P 地 址 )。 可 以 在 套 接 字 上 执行 的 全 部 操作 集合 构成 了 套 接 字 API 

为 了 打开 一 个 套 接 字 ， 应 用 程序 应 该 首先 调用 socket () 函数 以 便 初 始 化 一 个 端 到 端的 信道 。 标 
准 套 接 字 调 用 ，sk = socket (daomain,type,protocol)， 需 要 3 个 参数 。 第 一 个 参数 指定 域 或 地 址 
族 。 常 用 的 族 有 绑 定 在 本 地 主机 上 用 于 通信 的 AF UNIX、 用 于 基于 IPv4 协议 通信 的 AF_INET。 第 二 个 
参数 指定 套 接 字 类 型 。 当 处 理 AF INET 族 时 常用 的 套 接 字 类 型 值 ， 包 括 SOCK_STREAM (通常 与 TCP 
一 起 使 用 ) 和 SOCK DGRAM (与 UDP 一 起 使 用 ) 。 套 接 字 类 型 影响 分 组 在 传递 到 应 用 程序 前 内 核 如 何 
处 理 它 。 最 后 一 个 参数 指定 处 理 流 过 套 接 字 分 组 的 协议 。socket 函数 返回 一 个 文件 描述 符 ， 通过 它 
就 可 以 将 操作 应 用 到 套 接 字 上 

套 接 字 参 数 的 值 依赖 于 所 使 用 的 底层 协议 。 在 接 下 来 的 两 个 小 节 中 , 我 们 探讨 了 3 种 类 型 的 套 接 
字 APL。 它们 分 别 对 应 于 传输 层 、IP 层 和 链 路 层 的 访问 ， 正 如 在 它们 的 开源 实现 中 所 见 


5.4.2 通过 UDP 和 TCP 绑 定 应 用 程序 

网 络 应 用 最 广泛 使 用 的 服务 是 由 UDP 和 TCP 传输 协议 所 提供 的 。 由 socket (REF INET,SOCK 
DGRAM, IPPROTO_UDP) 函数 返回 套 接 字 文 件 描述 符 ， 并 初始 化 为 一 个 UDP 套 接 字 ， 其 中 AF_INET 表 
示 互 联网 地 址 族 、sOCK_DGRAM 代表 数据 报 服务 、IPPROTO UDP 指示 UDP 协议 。 在 描述 符 上 可 以 执 
行 一 系列 操作 ， 如 图 5-37 所 示 的 函数 . 

在 图 5-37 中 ， 在 连接 建立 之 前 ，UDP 服务 器 以 及 客户 机 创建 一 个 套 接 字 并 使 用 bina () 系 统 调用 
为 套 接 字 分 配 一 个 IP 地 址 和 端口 号 。 注意 的 bind () 是 可 选 的 ， 通 常 不 在 客户 机 上 用 它 。 当 没有 调用 
bind () 时 ， 内 核 就 为 客户 机 选择 默认 的 下 地 址 和 端口 号 。 然后， 当 UDP 服务 咒 绑 定 到 一 个 端口 之 后 ， 
它 就 准备 好 接收 来 自 UDP 客户 机 的 请 求 。UDP 客户 机 通过 循环 使 用 sendto () 和 recvfrom() 困 数 做 
一 些 有 用 的 工作 ， 直 到 完成 它 的 任务 为 止 。UDP 服务 器 继续 接受 请 求 ， 处 理 请 求 ， 并 使 用 sendto () 
和 Yecvfrom() 反 馈 结 果 。 通 常情 况 下 ，UDP 客户 机 不 需要 调用 bind() ， 因 为 它 并 不 需要 使 用 众 所 周 
知 的 端口 。 当 客户 机 调用 sendto () 时， 内 核 就 动态 地 为 它 分配 一 个 未 使 用 的 端口 

同样 ， 从 socket (AF_INET, SOCK STRERAM, ITPPROTO_TCP) 返 回 的 一 个 套 接 字 文 件 描述 符 初始 化 
为 一 个 TCP 套 接 字 ， 其 中 AF_INET 指示 互联 网 地 址 族 、SOCK_ STREAM 代表 可 靠 的 字 节 流 服务 、IPP- 
ROTO_TCP 意味 着 TCP 协议 。 在 描述 符 虐 执行 的 函数 如 图 5-38 所 示 。 这 里 默认 情况 下 ， 不 在 客户 机 |: 
调用 bind() 。 
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图 5-37 简单 UDP 客户 机 /服务 顺应 用 程序 的 套 接 字 两 数 
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read() 


图 5-38 简单 的 TCP 客户 机 /服务 器 程序 的 套 接 字 郧 数 
简单 的 TCP 客户 机 /服务 器 程序 的 流程 图 有 点 儿 复 杂 ， 因 为 它 是 面向 连接 的 TCP。 它 包含 了 连接 建 
VY 、 数 据 传输 和 连接 终止 阶 段 。 除了 binq() 外， 服务 磁 调 用 1isten() 为 僚 接 字 分 配 连 接 队 列 并 等 待 
来 自 客户 机 的 连接 请 求 。1isten () 系 统 调 用 表达 了 服务 器 愿意 开始 接受 进入 连接 请 求 的 意愿 。 每 个 监 
听 套 接 字 包含 两 个 队列 : 1) 部 分 建立 请 求 队列 ; 2) 完全 建立 请 求 队列 。 在 三 次 握手 期 间 ， 请 求 首先 
停留 在 部 分 建立 队列 中 ， 王 次 握手 完成 连接 建立 后 ,请求 将 移 到 完全 建立 请 求 队列 中 
在 大 多 数 操作 系统 中 的 部 分 建立 请 求 队列 中 有 一 个 最 大 的 队列 长 度 ， 例 如 ，5， 即 使 用 户 指 定 的 
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值 比 它 更 大 也 是 5， 央 此 ， 部 分 建立 请 求 队 列 可 能 成 为 拒绝 服务 (Dos) 攻击 的 日 标 。 如 果 一 个 黑客 
不 断 地 发 送 SYN 请 求 而 不 完成 三 次 握手 ， 请 求 队列 将 饱和 ， 不 能 接受 新 的 来 拥 合 法 客户 机 的 连接 
请 求 

系统 调用 1isten () 通 常 后 跟着 accept () 系统 调用 ， 它 们 的 工作 是 从 完全 建立 ee 将 第 

-个 请 求 出 队 ， 初 始 化 一 个 新 的 会 接 字 对 、 并 返回 为 客 人 描述 符 。 也 就 是 说 ， 

出 BSD 所 提供 的 accept () 系统 调用 会 导致 崩 动 地 创建 一 个 新 套 接 字 ， 这 与 TLI 套 接 字 存 Be 大 的 
不 同 ， 因 为 应 用 所 式 地 新 的 庆生 个 新 的 人 闻 ， 请 注意 ， 原 来 的 监听 僚 接 字 仍 然 监 
听众 所 周知 端口 上 新 的 连接 请 求 新 的 套 接 字 对 包含 客户 机 的 叫 地 址 和 端口 号 ， 然 后 服务 器 程 
厅 决 定 是 否 接受 客户 机 的 连接 请 可 

TCP 客户 机 使 用 connect () 调用 天 次 握手 过 程 建立 连接 .在 此 之 后 ， 客 户 机 和 服务 器 可 以 执行 它 
们 之 间 的 字 节 流传 输 ， 


行动 原则 : SYN 洪 泛 和 cookies 

使 用 三 次 握手 协议 可 能 会 导致 SYN 洪 泛 攻 击 ， 此 时 攻击 者 会 向 受害 者 的 系统 发 送 许多 连续 的 SYN 
请 求 . 它 相当 于 服务 器 在 收 到 SYN 时 就 分 配 资源 ， 但 从 来 不 会 收 到 ACK， 当 这 些 半 打开 的 连接 耗 尽 了 
服务 带 上 的 所 有 资源 时 ， 就 不 能 二 建立 新 的 合法 连接 ， 从 而 导致 拒绝 服务 (DoS)。 主 要 有 两 种 方法 实 
现 SYN 江 泛 攻击 : 故 章 不 发 送 最 后 的 ACK， 或 者 在 SYN 中 使 用 欺骗 的 源 中 地址， 导致 服务 器 将 SYN 
ACK 发 送 给 错误 的 IP 地址， 从 市 永远 不 会 收 到 ACK 

可 以 利用 SYN cookies 来 防范 SYN 洪 泛 攻击 。 SYN cookies 定义 为 “由 TCP 服务 器 特别 选择 的 初始 
TCP 序列 号 ”。 当 使 用 SYN cookies 的 服务 器 的 SYN 队列 (存储 到 达 的 SYN) 满 时 ， 不 必 放 弃 连 接 ， 相 
反 ， 它 发 送 回 一 个 具有 特殊 设计 的 初始 序列 号 的 SYN， 也 就 是 一 个 SYN cookie 的 SYN + ACK。 当 服务 
肯 从 客户 机 接收 到 随后 的 ACK 时 ， 首 先 检查 该 序列 号 ， 然 后 重建 伪 SYN 队列 表 项 ， 就 像 SYN 存储 在 
它 的 SYN 队列 中 一 样 ， 在 这 个 序列 号 中 使 用 编码 的 信息 。 也 就 是 说 ， 当 发 出 SYN cookies 时 ， 服 务 器 
不 会 依赖 于 SYN 队列 来 追踪 二 次 握手 。 相 反 ， 它 依赖 于 编码 的 SYN cookies。 因 此 ， 即 使 它 的 SYN 队列 
已 满 ， 服 务 带 仍 然 能 够 接受 完成 三 次 握手 的 真正 连接 。 正如 我 们 将 要 在 第 6 章 中 学 习 到 的 ， 类似 的 


cookie 思想 也 可 用 于 无 状态 的 超 文本 传输 协议 〈HTTP) 以 便 跟 踪 长 期 的 会 话 状 态 。 
开源 实现 5.7: 套 接 字 向 内 、 向 外 的 读 / 写 
概述 
图 5-39 显示 了 每 个 讲 到 的 Linux 2.6 内 核 部 分 的 相对 位 置 。 一 般 套 接 字 APIT 及 其 后 续 的 函数 调用 位 


于 net 目录 中 。 与 IPv6 的 情况 一 样 ，TPv4 的 源 代 码 单 独 放 在 ipv4 目录 中 ，BSD 套 接 字 只 不 过 是 一 个 
到 其 底层 协议 (如 IPX 和 1TNET) 的 接口 。 如 果 套 接 宇 地址 族 指定 为 RE INET， 那 么 目前 广泛 使 用 的 
IPv4 协议 就 对 应 于 INET 套 接 字 。 占 主导 地 位 的 链 路 层 技术 ,以 太 网 ， 将 其 头 部 构建 在 net /ether- 
net/eth.c 内。 之后， 以 太 网 帧 就 被 位 于 darivers/net/ 目 录 中 的 以 太 网 驱动 程序 从 主 存储 器 移动 到 
网 络 接口 卡 上 . 在 此 目录 中 的 驱动 程序 依赖 于 硬件 ， 因 为 许多 厂商 具有 不 同 内 部 设计 的 以 太 网 卡 产品 
类 似 的 结构 ， 也 适用 于 WLAN 以 及 其 他 链 路 。 





应 用 程序 
套 接 字 接 口 :=-=--/ = 一 


用 户 空间 


net/socket.c Ea BSD 套 接 字 内 核 空 间 
net/ipv4/af_inet.c Ve INET 套 接 字 
netipv4/{tcp*,udp*} Bk 


neVipv4/fipwicmps 3 | 
neUethernetUeth.c 以 头 部 构造 器 


drivers/neyx.{cshj 以 太 网 网 络 接口 卡 驱动 程序 
图 5-39 Linux 2.6 中 的 协议 栈 和 编程 接口 
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算法 实现 

在 Linux 中 ， 简 单 的 TCP 客户 机 /服务 器 程序 所 使 用 的 套 接 字 APIl 的 内 部 情况 ， 如 图 5-40 所 示 。 将 
用 户 空间 程序 调用 的 编程 API 转换 为 sys _ socketcall() 内 核 调 用 ， 然 后 再 调度 它们 对 应 的 sys_* 
() 调 用 ，sys_socket () (在 net/socket.c 内 ) 调用 sock _ create () 分 配套 接 字 ， 然 后 调用 inet 
_create () 根据 给 定 的 参数 初始 化 sock 结构 . 其 他 sys_* () 函数 调用 它们 对 应 的 inet * ) 函数 ， 
因为 sock 结 人 (AF INET)。 由 于 在 图 5-40 中 ，read() 和 write( ey 
套 接 字 的 API 而 是 通常 由 文件 1/0 操作 所 使 用 的 ， 它 们 的 调用 流程 会 沿 着 文件 系统 中 和 inode 操 
作 进 行 ， 以 便 找 到 洒 不 给 定 的 文件 描述 符 实际 上 与 某 个 sock 结构 相关 。 接 下 来 将 它们 编译 为 相应 的 do 
_sock read() 和 do sock write () 函 数 ， 这 是 套 接 字 感 知 的 。 





用 户 空间 


服务 器 ”客户 机 
屋 新 器 千 联 了 全 寻 。 .发送 数据 ，，_ 客 户 机 套 接 字 创 建 ”发 送 数据 _ 
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Sy8_SOcket 1 sys-hind | sys_listen | sys_aceept | do wu 
ll write 


内 核 空间 





图 5-40 Linux 中 的 读 / 写 ， 内核 空 间 与 用 户 空 间 

在 大 多 数 UNIX 系统 中 ,将 read ()/write () 函数 集成 到 虚拟 文件 系统 (VFS) 中 。VFS 是 内 核 
中 的 软件 层 ， 提 供 文 件 系统 到 用 户 空 间 的 接口 。 它 还 提供 了 一 个 在 内 核 中 允许 不 同文 件 系统 实现 共存 
的 抽象 

数据 结构 

在 Linux 2.6 中 ， 由 TCP 连 接 函 数 (如 图 5-40 所 示 ) 使 用 的 内 核 数据 结构 如 图 5-41 所 示 。 发送 方 
初始 化 套 接 字 并 获取 文件 描述 符 ( 假 设 在 打开 的 文件 表 FD[1] 中 )， 当 用 户 室 间 程序 在 该 描述 符 上 操 
作 时 ， 它 就 沿 着 苗头 链接 以 便 指 向 文件 结构 ， 其 中 它 包含 了 指向 inode 结构 的 一 个 目录 表 项 gen 
try。inode 结构 中 可 以 初始 化 为 Linux 支持 的 各 种 文件 系统 类 型 ， 也 和 包括 套 接 字 结 构 类 型 之 一 。 套 接 
字 结 构 包 含 一 个 sock 结构 ， 它 保持 与 网 络 相关 的 信息 以 及 从 传输 层 到 链 路 层 的 数据 结构 。 当 套 接 字 
初始 化 为 一 个 字 节 流 的 、 可 靠 的 、 面 向 连接 的 TCP ee 然后 传输 层 协议 信息 tp pinfo 再 初始 
化 为 tcp_opt 结构 ， 其 中 存储 了 许多 与 TCP 相关 的 变量 和 数据 结构 ， 如 拥塞 窗口 snd cwnd。sock 
结构 的 proto 指针 链接 到 包含 协议 操作 原 语 的 proto 结构 。proto 结构 中 的 每 个 成 员 都 是 一 个 函数 
指针 。 对 于 TCP， 将 函数 指针 初始 化 为 指向 包含 在 tcp func 结构 中 的 函数 列表 。 任 何 想 在 Linux 上 编 
写 自 己 传输 协议 的 人 应 该 遵循 由 proto 结构 定义 的 接口 

练习 

如 图 5-41 所 示 ， 在 结构 sock 中 的 结构 proto 提供 了 链接 到 套 接 字 的 必要 操作 的 dd 表 ， 
例如 connect、sendmsg 和 recvmsg。 通 过 将 不 同 函数 集合 链接 到 列表 ， 套 接 字 就 可 以 通过 不 同 的 协 
议 发 送 或 接收 数据 ， 找 到 并 阅读 其 他 协议 (如 UDP) 的 函数 集合 
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打开 的 Linux 套 接 条 
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图 5-41 ” 套 接 字 API 使 用 的 内 核 数据 结构 


性 能 问题 : 套 接 字 上 的 中 断 和 内 存 复制 

在 套 接 字 上 接收 分 段 实 际 上 调用 两 个 处 理 流 程 ， 如 图 5-42 中 的 调用 图 所 示 。 第 一 个 流量 从 系统 调用 
reaq() 开 始 ， 然 后 在 tcp_ recvmsg() (对 于 TCP 的 情况 下 ) 等 待 ， 这 需要 由 sk data ready () 来 触 
发 ， 以 在 返回 用 户 空间 时 结束 。 因 此 ， 花 费 在 该 流 上 的 时 间 会 导致 用 户 察觉 到 的 延迟 。 第 二 个 流 是 当 分 
组 到 达 时 tcp v4 rcv() (对 于 TCP 的 情况 下 ) 被 IP 层 调用 开始 的 ， 并 以 调用 sk data_ ready () 触 
发 第 一 个 流 的 恢复 作为 结束 。 图 5-42 中 显示 了 传输 层 接收 TCP 分 段 所 花费 的 时 间 ,，。tcp recvmsg () 
负责 将 数据 从 内 核 结构 复制 用 户 缓冲 区 中 ， 因 此 消耗 了 大 部 分 时 间 (2.6 微 秒 )。 系 统 调用 read () 在 
用 户 模式 和 内 核 模 式 之 间 切 换 时 花费 时 间 。 此 外 ， 也 会 在 系统 表 查 询 上 花费 时 间 。 因此，read () 花 党 
大 量 的 时 间 (2.4 人 微 秒 )。 最 后 ， 在 第 二 个 流 上 ， 花费 在 tcp data queue () 和 tcp v4 rcv() 上 的 时 
间 分 别 是 排队 和 验证 分 段 的 有 效 性 。 
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图 5-42 在 TCP 层 接收 TCP 分 段 产 生 的 延迟 
图 5-43 显示 了 在 传输 TCP 分 段 时 所 花费 的 时 间 。 两 个 最 耗 时 的 函数 在 功能 上 与 接收 情况 相似 
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们 分 别 是 tcp sendmsg () ， 从 用 户 缓 冲 区 向 内 核 结构 复制 数据 ; 系统 调用 write ()， 用 户 模式 和 内 
核 模 式 之 间 的 切换 。 在 检查 了 TCP 分 段 的 传输 和 接收 时 间 后 ， 我 们 就 可 以 得 出 结论 ，TCP 层 的 瓶颈 发 
生 在 两 个 地 方 : 用 户 缓冲 区 和 内 核 结 构 之 间 的 内 存 复制 ， 用 户 模式 和 内 核 模 式 之 间 的 切换 
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图 5-43 在 TCP 层 中 传输 TCP 分 段 产生 的 延迟 


5.4.3 绕 过 UDP 和 TCP 传输 


有 时 ， 应 用 程序 不 希望 使 用 传输 层 所 提供 的 服务 。ping 和 traceroute 等 工具 直接 发 送 分 组 而 
不 打开 UDP 或 TCP 套 接 字 。 它 们 仅 使 用 IP 层 提供 的 服务 。 有 些 应 用 程序 甚至 绕 过 IP 服务 ， 并 直接 通 
过 数据 链 路 层 通信 。 例 如 ， 分 组 嗅 探 应 用 程序 ， 如 tcpdump 和 Wireshark， 直 接 在 线路 上 捕获 原始 
分 组 。 这 样 的 应 用 程序 需要 打 关 完全 不 同 于 UDP > TCP 的 套 接 字 。 本 节 的 目的 在 于 探索 在 Linux 下 可 
以 实现 这 些 目标 的 编程 方法 。 接 下 来 我 们 将 学 习 上 上 述 任务 的 3 个 开源 实现 


开源 实现 5.8: 绕 过 传输 层 

概述 

自 Linux 2.0 出 现 以 后 ， 就 引入 了 一 个 新 的 协议 族 ， 称 为 Linux 分 组 套 接 字 (AF PACKET)， 允 许 
应 用 程序 在 发 送 和 接收 分 组 时 直接 经 网 卡 的 驱动 程序 来 处 理 ， 而 不 是 通常 的 TCP/IP 或 UDP/IP 协议 栈 
来 处 理 。 任 何 通 过 套 接 字 发 送 的 分 组 可 直接 传输 到 以 太 网 接口 ， 同 时 接口 接收 到 的 分 组 将 直接 传送 给 
应 用 程序 

算法 实现 

AF_PACKET 族 支 持 两 个 咯 有 不 同 的 套 接 字 类 型 分别 是 SOCK_DGRAM 和 SOCK _ RAW。 前 者 将 添加 
和 删除 以 太 网 头 部 的 重担 留 给 了 内 核 ， 而 后 者 则 让 应 用 程序 完全 控制 以 太 网 头 部 。 它 们 的 实现 在 net/ 
packet/ af packet. c 中 。 通 过 检查 结构 变量 packet ops， 你 可 以 找到 对 应 族 的 主要 操作 函数 ， 如 
packet bind()、 packet sendmsg() 和 packet recvmsg ()。 

在 packet recvmsg () 中 的 代码 很 容易 理解 。 首 先 ， 调 用 skb recv datagram() 经 过 skb 的 组 
冲 区 获得 分 组 。 然后， 分 组 数据 由 skb _ copy datagram iovec() 复 制 到 用 户 空间 ， 稍 后 再 传递 给 用 
户 空间 程序 。 最 后 ，skb 由 skb free datagram() 释 放 

与 packet recvmsg () 相 比 ， packet sendmsg () 有 一 个 更 复杂 的 程序 。 它 首先 检查 链 路 层 源 地 
址 是 和 否 已 经 由 上 层 空 间 程 序 分 配 了 。 如果 没 有 分 配 ， 它 将 根据 存储 在 输出 设备 数据 结构 上 的 信息 设置 
地 址 。 然 后 由 sock alloc send skb() 分 配 skb 缓冲 区 ， 用 户 空间 数据 将 由 memcpy fromiovec () 
复制 到 skb 缓冲 区 中 。 如 果 套 接 字 以 SOCK_DGRAM 类 型 打开 ， 就 调用 dev_hard header () 处 理 以 太 
网 头 部 。 最后， 分 组 将 由 dev_queue xmit () 发 送出 去 ，skb 缓冲 区 将 由 kfree skb () 释 放 。 

用 法 示例 

为 了 打开 AF PACKET 族 的 套 接 字 ， 在 socket () 调 用 中 的 协议 字段 必须 与 /usr/include/ 
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linux/if ether. h 中 定义 的 以 太 网 协 标识 符 相 匹配 ， 协 议 标识 符 表示 可 以 在 以 太 网 帧 中 传输 的 注册 
过 的 协议 ,除非 处 理 非常 特殊 的 协议 ,通常 使 用 ETH P_IP， 它 将 包括 所 有 IP 族 协议 (TCP、UDP、 
ICMP、 原 始 IP 等 )。 不 过 ， 如 果 你 想 要 捕获 所 有 的 分 组 ， 就 使 用 ETH P ALL 代替 ETH P IP， 如 在 下 
面 例子 中 所 示 


#incilude “stdio,h”" 
#include 





打工 Ude 
#include 
#irclude 





#include “net/if Rn 
#include “arpa/inet.h’ 
#include “netdb.h” 

#include “netinet/in.h’” 
#include “limix/if etlher.h’” 


int maint 
{t 
TYE > 
int fa; 
char buf (2048]; 
if((fad = aocket (PF PACKET, SOCK RAW, htons (ETH P 


人 RL 去 所 1.} 
| 
4 
printf (“fail to epen socket\n"); 
return(l); 
} 
whilel(1l) 
nn = Tecvftrom(fa, buf, sizeof (buf),d0.,0, 0) 
if (n>0) 


Erintrf (“Teevy $d Bytes\i”; nm)s 
return Oy 


} 

由 于 AF PACKET 族 的 套 接 字 具 有 严重 的 安全 漏洞 ， 例 如 ， 你 可 以 使 用 欺骗 的 MAC 地 址 伪造 以 太 
网 帧 ， 所 以 它们 仅 能 被 具有 机 器 root 权限 的 用 户 使 用 

练习 

人 MAC 头 部 字段 转 储 到 一 个 文件 中 ， 并 为 每 个 收 到 的 分 组 标识 传输 协议 
请 注意 ， 你 需要 有 机 器 的 root 权限 才能 运行 

妆 组 捕 革 ， 混杂 模式 与 非 混 杂 模 式 

可 以 直接 访问 传输 介质 的 任何 人 都 能 够 捕获 有 线 或 无 线 网 络 上 的 分 组 。 能 够 完成 这 种 事情 的 应 用 程序 
称 为 分 组 嗅 探 器 ， 通 常用 于 调试 网 络 应 用 程序 以 便 检查 分 组 是 否 以 正确 的 头 部 和 有 效 载 荷 发 送出 去 。 当 它们 
在 网 卡 上 被 接收 到 时 ，aE PACKET 族人 允许 应 用 程序 检索 数据 分 组 ， 但 它 仍 然 不 允许 应 用 程序 读 取 不 是 发 给 
它 主 机 的 分 组 。 正 如 我 们 前 面 学 习 过 的 ， 这 是 因为 网 卡 将 丢弃 所 有 不 包含 自己 MAC 地 址 的 分 组 一 一 称 为 非 
混杂 操作 模式 ， 其 中 每 个 网 卡 仅 关心 自己 的 事情 并 且 只 读 取 发 送 给 它 的 帧 。 此 规则 有 三 个 例外 : 

1) 如 果 帧 的 目的 MAC 地 址 是 特殊 的 广播 地 址 (FF:FF:FF:FF:FF:FF)， 那 么 它 可 以 被 任何 网 卡 
接收 。 

2) 如 果 帧 的 目的 MAC 地 址 是 组 播 地 址 ， 那 么 它 将 被 所 有 局 用 组 播 接收 功能 的 网 卡 接收 。 

3) 设置 成 混杂 模式 的 网 卡 将 会 接收 它 能 侦 测 到 的 所 有 帧 。 





开源 实现 5.9: 设置 混杂 模式 

概述 

当然 ， 上 述 最 后 三 个 例外 是 我 们 最 感 兴趣 的 。 为 了 将 网 卡 设置 成 混杂 模式 ， 我 们 只 需要 在 该 网 卡 
上 打开 套 接 字 发 出 特定 的 ioct1l () 调 用 。 由 于 这 是 一 个 可 能 危及 安全 的 操作 ， 只 允许 具有 root 权限 的 
用 户 调用 。 如 果 “sock” 和 包含 一 个 已 经 打开 的 套 接 字 ， 那 么 利用 以 下 指令 就 能 实现 : 
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me et 

ioctllsock, SIOCSTEFLAGS, f 

ethreq 是 一 种 定义 在 /usr/include/net/if.h 中 的 ifreG 结 构 。 首先 ioctl 读 取 以 太 网 网 卡 
标志 的 当前 值 ， 然 后 标志 与 IFE PROMISC 进行 或 运算 ， 激 活 混杂 模式 并 写 回 到 具有 第 二 个 IOCTL 的 
网 卡 上 。 执行 ifconfig 命令 很 容易 地 进行 检查 ， 并 观察 输出 的 第 三 行 

算法 实现 

在 调用 系统 调用 ioctl () 后 ， 将 网卡 设置 成 混杂 模式 会 发 生 什 么 ” 当 应 用 程序 调用 ioct1l () 时， 
内 核 就 调用 dev ioctl() 处 理 所 有 网 络 类 型 的 /0 控制 请 求 ， 然 后 ， 根 据 传 入 的 参数 将 调用 不 同 的 函 
数 来 处 理 对 应 的 任务 。 例如 ， 当 给 定 SIOCSIFFLAGS 时 ,将 调用 dev ifsioc 设置 对 应 于 sock 的 接 
口 标志 。 下 一 步 ,， 将 调用 dev_set promiscuity () 通 过 网 络 设备 驱动 程序 提供 的 回调 函数 ndao 
change rx flags() 和 ndo set rx mode () 来 改变 设备 的 标志 。 当 启用 组 播 或 混杂 模式 时 ， 前 一 个 
函数 允许 设备 接收 方 更 改 配置 ， 而 后 一 个 函数 则 通知 设备 接收 方 有 关 地 址 列表 过 滤 的 更 改 

练习 . 

阅读 网 络 设备 驱 动 程序 ， 弄 履 ndo change rx flags() 和 ndo set rx mode() 是 如 何 实现 的 
如 果 你 找 不 到 实现 它们 的 代码 ， 那 么 驱动 程序 中 启用 混杂 模式 的 相关 代码 在 哪里 ? 

内 核 中 分 组 的 捕获 和 过 滤 

作为 应 用 程序 和 在 用 户 空 间 中 运行 的 进程 ， 分 组 唱 探 器 进程 在 分 组 到达 时 不 可 能 立即 由 内 核 调度 
因此 内 核 应 该 将 它 缓存 在 内 核 套 接 字 缓冲 器 中 直到 分 组 嗅 探 器 进程 被 调度 为 止 ， 此外, 用户 可 以 指定 
分 组 过 滤器 仅 嗅 探 捕获 感 兴趣 的 分 组 ， 当 分 组 在 用 户 空间 过 小 时 分 组 捕获 的 性 能 可 能 会 降级 ， 央 为 会 
有 大 量 无 关 的 分 组 将 跨越 内 核 用 户 空间 边界 的 传输 。 如 果 在 一 个 忙 的 网 络 上 嗅 探 ， 这 种 嗅 探 器 就 不 能 
在 分 组 洪 出 套 接 字 缓 冲 区 之 前 及 时 捕获 分 组 。 把 分 组 过 滤 咒 迁移 旬 内 核 中 将 有 效 地 提高 性 能 





threg); 


开源 实现 5. 10: Linux 套 接 字 过 滤器 

概述 

tcpdump 程序 通过 命令 行 参数 接收 其 用 户 的 过 滤 请 求 ， 以 捕捉 感 兴趣 的 分 组 集合 ， 然 后 tcpdump 
调用 libpcap (便携 分 组 捕获 库 ) 访问 合适 的 内 核 级 分 组 过 滤器 .在 BSD 系统 中 ，Berkeley 分 组 过 滤器 
(BPF) 在 内 核 中 执行 分 组 过 滤 。Linux 一 直 没 有 配备 内 核 分 组 过 滤 ， 直 到 在 Linux 2.0.36 中 出 现 Linux 套 
接 字 过 滤器 为 止 。BPPF 和 LSF 之 间 是 大 同 小 异 ， 除 了 一 些 细微 的 差别 ， 如 用 户 访问 该 服务 的 权限 。 

框图 

图 5-44 中 给 出 了 一 个 用 于 分 组 捕获 和 过 滤 的 分 层 模型 。 到 达 的 分 组 从 正常 的 协议 栈 复 制 到 BPF， 
然后 根据 相应 的 应 用 程序 安装 的 BPF 指令 在 内 核 中 过 滤 分 组 。 由 于 只 有 通过 BPF 的 分 组 才 会 被 导向 到 
用 户 空间 程序 ， 所 以 用 户 空间 和 内 核 空 间 之 间 数 据 交 换 的 额外 开销 可 以 显著 地 降低 。 
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图 5-44 实现 有 效 的 分 组 过 滤 : 分 层 的 模型 
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为 了 对 套 接 字 应 用 Linux 套 接 字 过 滤器 ， 可 以 使 用 socket. G 中 实现 的 setsockopt () 函数 将 BPF 
间 令 传递 给 内 核 ， 并 为 SO ATTACH FILTER 设置 参数 optname。 该 函数 将 BPF 指令 分 配给 图 5-41 所 
示 的 sock > sk filter。BPF 分 组 过 滤 引 擎 是 用 一 种 特定 的 伪 码 语言 编写 的 ， 该 语言 是 由 Steve Mc- 
Canne 和 Van Jacobson 所 倡导 的 .BPF 实际 上 看 起 来 更 像 一 种 真正 的 汇编 语言 ， 带 有 一 些 寄存 器 和 几 个 
旨 令 来 加 载 和 存储 值 并 执行 算术 运算 和 有 条 件 的 分 支 ， 

过 滤器 代码 在 连接 的 套 接 字 上 检查 每 个 分 组 。 过 滤器 处 理 结果 是 一 个 整数 ， 表 示 套 接 字 应 该 将 多 
少 字 节 的 分 组 传递 给 应 用 层 . 这 要 归功 于 进一步 的 优点 ， 因 为 通常 所 感 兴趣 的 分 组 捕获 和 过 滤 目 的 只 
不 过 是 一 个 短 短 几 字 节 的 分 组 ， 如 果 不 复制 多 余 的 字 节 ， 那 么 就 能 够 节省 处 理 时 间 

练习 

如 果 你 阅读 tcpdump 的 主页 ， 作 将 会 发 现 tcpdump 能 够 生成 人 们 易 读 的 BPF 代码 或 C 程序 分 段 ， 
根据 给 定 的 过 滤 条 件 : 如 tcpdump-d host 192.168.1.1。 首先 计算 生成 的 BPF 代码 。 然 后 ， 写 一 段 
程序 打开 原始 套 接 字 (参见 开源 实现 5.8)， 打 开 混 杂 模 式 ( 见 开 源 实现 5.9)，, 使 用 setsockopt 将 
BPF 代码 注入 到 BPF 中 ， 然 后 观察 是 否 确实 从 套 接 字 仅 收 到 匹配 给 定 过 滤器 的 分 组 


5.5 用 于 实时 流量 的 传输 协议 

目前 提 到 的 传输 协议 都 不 是 为 适应 实时 流量 要 求 而 设计 的 ,那么 就 必须 有 一 些 其 他 的 精密 机 制 在 
互联 网 上 传输 实时 流量 。 本 节 首 先 强调 实时 流量 所 强制 施加 的 要 求 

到 目前 为 止 ，TCP 能 满足 非 实 时 数据 流量 所 规定 的 所 有 要 求 ， 包 括 差错 控制 、 可 靠 性 、 流 量 控制 
和 拥塞 控制 。 然 而 ， 实 时 流量 既 不 能 由 TCP 满足 也 不 能 由 UDP 来 满足 ， 因 此 开发 了 多 个 其 他 的 传输 协 
以 。 其 中 最 流行 的 是 RTP 和 它 的 伙伴 协议 RTCP。 由 于 这 些 传输 协议 还 没有 成 熟 到 广泛 部 署 的 程度 ， 
所 以 它们 没有 在 内 核 中 实现 而 只 是 和 常 作为 一 个 应 用 程序 调用 的 函数 库 实 现 。 许 多 实时 应 用 ， 如 Skype 
和 网 络 收 音 机 ， 可 以 调用 这 些 库 函 数 ， 然 后 在 UDP 上 传输 数据 。 由 于 解决 的 需求 实际 上 是 传输 层 问 
题 ， 因 此 我 们 将 它们 放 在 本 章 讨 论 而 不 是 放 在 第 6 章 


5.5.1 实时 需求 

实时 流量 经 常 将 多 种 流 (如 视频 、 音 频 和 文本 等 ) 放 在 一 个 会 话 中 传输 ， 会 话 是 传输 这 些 数据 流 
的 一 组 连接 。 因 此 ， 第 一 个 新 的 需求 就 是 需要 在 一 个 会 话 中 同步 多 个 数据 流 。 同 步 还 需要 在 发 送 方 和 
接收 方 之 间 传 给 、 播 放流 时 实现 。 两 种 同步 要 求 在 发 送 方 和 接收 方 之 间 传 递 定时 消息 。 此 外 ， 实 时 流 
量 对 穿越 不 同 网 络 的 移动 性 所 导致 的 中 断 更 为 敏感 。 因 此 ， 在 移动 性 下 支持 服务 连续 性 成 为 第 二 个 新 
的 需求 . 

实时 流量 是 连续 的 ， 因 此 需要 一 个 稳定 的 或 平滑 的 、 无 滞后 传播 的 可 用 速率 。 但 它 仍 然 需要 平滑 
的 拥塞 控制 以 便 保持 互联 网 的 健康 并 对 上 自我 调节 的 TCP 流量 友好 。 这 使 得 平滑 性 和 TCP 友好 性 成 为 第 
:个 需求 。 有 些 实时 流量 自 适应 性 很 好 ， 它 甚至 能 够 改变 媒体 编码 率 ， 即 当 可 用 速率 波动 时 编码 1 秒 
钟 内 容 需 要 的 平均 位 数 。 这 当然 是 为 发 送 方 提供 路 径 质 量 报告 而 收集 数据 的 第 四 个 需求 

不 幸 的 是 ， 还 没有 一 个 流行 的 传输 协议 能 够 满足 所 有 这 四 个 实时 性 需求 。 正如 我 们 接 下 来 将 看 到 
的 ， 每 个 协议 或 多 或 少 地 满足 了 一 些 需求 。RTP 和 RTCP 满足 第 一 和 第 四 个 需求 ， 似 乎 是 最 流行 的 实 


时 传输 协议 ， 
多 流 和 多 六 


男 一 种 传输 协议 ， 流 控制 传输 协议 (SCTP)， 是 由 R. Stewart 和 C. Metz 在 RFC 3286 中 引入 的 并 在 
RFC 4960 中 定义 。 像 TCP 一样 ， 它 为 数据 传输 提供 了 一 种 可 靠 的 信道， 并 使 用 相同 的 拥塞 控制 算法 
然而 ， 由 于 术语 “ 流 ” 出 现在 SCTP 中 ， 所 以 SCTP 提供 两 个 非常 有 利于 流 应 用 的 额外 属性 ， 也 就 是 支 
持 多 穴 和 多 流 ， 

支持 多 流 意味 着 多 个 数据 流 ， 如 音频 和 视频 ， 可 以 并 发 地 通过 一 个 会 话 传输 。 也 就 是 说 ，SCTP 能 
够 支持 独立 有 序 地 接收 每 个 数据 流 ， 避 免 可 能 发 生存 TCP 上 的 行头 〈Head-Of-Line，HOL) 阻塞 。 在 
TCP 中 ， 探 制 消 息 或 某 些 重要 的 消息 常常 被 阻塞 ， 因 为 大 量 分 组 排 在 发 送 或 接收 缓冲 区 的 前 面 
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支持 多 穴 意味 着 甚至 当 一 个 移动 用 户 从 一 个 网 络 移 动 到 男 一 个 网 络 时 ， 他 将 不 会 察觉 它 了 所 接收 到 
流 的 任何 中 断 ， 为 了 支持 多 穴 届 性 ， 一 个 SCTP 会 话 可 由 多 条 连接 并 发 地 通过 不 同 的 网 络 适配器 ， 例 
如 ， 以 太 网 和 无 线 局 域 网 此 外 ， 对 于 每 条 连接 还 有 一 个 心跳 消息 ， 以 确保 其 连接 性 - 内 此 ， 当 一 条 


连接 出 现 故 障 时 ，SCTP 就 可 以 立即 通过 其 他 连接 传输 流量 
SCTP 协议 还 可 以 修改 TCP 连接 的 建立 和 关闭 步 又 . 例如， 建议 连接 建立 采用 四 次 握手 机 制 ， 以 便 


克服 TCP 的 安全 问题 。 

平滑 速率 控制 和 TCP 友好 性 

虽然 TCP 流量 在 互联 网 中 仍然 占 主导 地 位 ， 但 研究 表明 在 大 多 数 TCP 版 本 中 使 用 的 拥塞 控制 机 制 
可 能 会 叶 敏 过 大 的 传输 速率 振荡 而 无 法 满足 有 低 拌 动机 求 的 实时 流量 。 由 于 TCP 可 能 不 适合 实时 应 
用 ， 所 以 开发 人 员 常 常 减少 其 中 的 拥塞 控制 ， 甚 至 避免 使 用 拥塞 控制 。 这样 的 做 法 导致 互 联网 界 的 担 
心 ， 因 为 互联 网 的 带宽 是 共享 的 ， 没 有 控制 机 制 来 决定 一 个 流 在 互联 网 于 应 该 使 用 多 少 带宽 ， 过 去 这 
一 直 是 由 TCP 进行 自我 控制 

1998 年 ,在 RFC 2309 中 建议 了 一 种 TCP 友好 的 概念 。 这 个 观念 的 主要 思想 是 在 面临 相同 的 网 
络 条 件 如 (相同 的 分 组 丢失 率 和 往返 时 间 1) 时 ， 流 应 该 在 传输 状态 对 拥塞 状态 做 出 响应 ， 并 且 使 用 
不 会 比 处 于 稳定 状态 TCP 流 更 多 的 带宽 。 这样 的 概念 要 求 任何 互联 网 流 使 用 拥塞 探 制 机 制 并 且 不 会 
比 其 他 TCP 连接 使 用 更 多 的 带宽 。 不 幸 的 是 ， 在 这 个 问题 上 并 没有 明确 哪 种 拥 寨 控制 是 最 佳 的 .在 
这 种 情况 下 ，E. kohler 等 人 在 RFC 4340 中 提出 了 一 个 新 的 协议 ， 称 为 数据 报 拥 塞 控制 传输 协议 
(DCCP) ，DCCP 允许 对 于 拥塞 控制 方案 有 自主 选择 权 。 该 协议 目前 仅 包含 两 个 方案 ， 类 似 于 TCP 和 
TCP 友好 速率 控制 (TFRC) 。TFRC 最 早 在 2000 年 提出 并 在 RFC 3448 文档 中 定义 为 一 种 协议 ， 它 详 
细 曾 述 了 应 该 在 两 个 终端 设备 之 间 交 换 什么 信息 来 满足 TCP 友好 性 。 


行动 原则 : 流 采用 TCP 还 是 UDP? 

为 什么 TCP 不 适用 于 流传 输 ? 首先 ， 重 传 机 制 紧密 地 谈 入 TCP 中 ， RE 
至 会 增加 接收 数据 的 延迟 和 拉动 。 其 次 ， 持 续 的 速率 波动 可 能 不 利于 流 数 据 传输 。 也 就 是 说 ， 尽 管 对 
于 流 数据 ， 对 可 用 带宽 的 估计 是 选择 编码 速率 所 必需 的 ， 但 流 数据 不 适用 于 震荡 的 传输 速率 ， 多 要 杀 
适用 于 分 组 丢失 的 激烈 响应 ， 因 为 它 原 本 设计 用 于 避免 潜在 的 连续 分 组 丢失 。 流 应 用 程序 可 以 接受 也 
可 以 放弃 处 理 分 组 丢失 问题 。 由 于 在 TCP 中 的 某 些 机 制 并 不 适用 于 流 数据 ， 所 以 人 们 把 目光 转向 通过 
UDP 传输 流 数据 。 遗 央 的 是 ，UDP 太 简 单 ， 不 提供 可 估算 当前 可 用 速率 的 机 制 。 此外， 出 于 安全 性 考 
虑 ，UDP 分 组 有 时 也 会 被 中 间 网 络 设备 丢掉 - 

尽管 TCP 和 UDP 都 不 适用 于 流 数 据 ， 但 它们 仍 不 失 为 当今 互联 网 仅 有 的 两 个 成 熟 的 传输 协议 ， 某 
些 流 数据 的 确 还 是 由 这 两 个 协议 传输 。UDP 用 来 传输 纯 的 音频 数据 流 ， 比 如 音频 和 VoIP。 这 些 流 数 据 
可 以 简单 地 用 恒定 速率 发 送 而 无 需 太 多 拥塞 控制 ， 因 为 它们 所 需要 的 带宽 通常 低 于 可 用 的 带宽 。 另 一 
方面 ，TCP 用 于 互联 网 不 能 总 是 满足 所 需 带 宽 的 流 1 如 ， 视 频 和 音频 的 混合 。 然 后 ， 为 了 减 
轻 TCP 的 震荡 速率 (带宽 检测 机 制 的 负 效应 ) ， Rs 个 大 的 缓冲 区 ， 这 会 加 大 延迟 。 尽 管 延 
迟 对 于 单 向 应 用 是 可 以 忍受 的 ， 例如， 在 YouTube 上 面 看 视频 剪辑 ， 但 对 于 像 视频 会 议 这 样 的 交互 式 
应 用 程序 却 不 是 可 以 忍受 的 。 这 就 是 为 什么 开发 人 员 需 要 开发 如 上 所 述 的 平滑 速率 控制 机 制 的 原因 ， 


回放 重 构 和 路 径 质 量 报告 

由 于 互联 网 是 共享 数据 报 网 络 ， 所 以 在 互联 网 上 传输 的 数据 会 有 不 可 预测 的 延迟 和 拌 动 。 但是， 
实时 应 用 (如 在 I 上 的 语音 (VolP) 和 视频 会 议 ) 需要 适当 的 定时 信息 来 重 构 在 接收 方 的 回放 。 在 
接收 方 的 重建 要 求 编 解码 类 型 选择 正确 的 解码 器 以 便 解 压缩 有 效 载荷 ， 时 间 筱 重 构 原 来 的 定时 以 便 以 
正确 的 速率 播放 数据 ， 序 列 号 则 用 于 按 顺序 正确 地 放置 到 达 的 数据 分 组 并 用 于 分 组 丢失 检测 ， 另 一 方 
面 ， 实 时 应 用 程序 的 发 送 方 也 需要 来 自 接收 方 的 路 径 质 量 反 馈 以 便 对 网 络 拥塞 做 出 响应 。 此 外 ， 在 组 
播 环 境 下 ， 成 员 信息 也 需要 管理 。 这些 控制 平面 机 制 也 应 该 构建 到 标准 协议 中 。 

总 之 ， 实 时 应 用 程序 的 数据 平面 需要 处 理 编 解码 器 、 序 列 号 及 时 间 戳 ; 控制 平面 的 重点 放 在 端 到 
端 延 迟 Z 抖 动 / 委 失 的 反馈 报告 和 成 员 管理 上 。 为 了 满足 这 些 需 求 ， 已 提出 了 了 在 接 下 来 两 节 中 将 要 介绍 
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的 RTP 和 RTCP。 注意 ，RTP 和 RTCP 经 常 由 应 用 程序 自身 来 实现 而 不 是 由 操作 系统 实现 。 因 此 应 用 程 
序 县 有 对 每 个 RTP 分 组 的 完全 控制 ， 如 RTP 头 部 选项 字段 定义 
5. 5.2 标准 数据 平面 协议 : RTP 


在 RFC 1889 中 描述 了 一 种 数据 平面 协议 : 实时 传输 协议 (RTP)。 它 是 用 来 传输 语音 /视频 流量 来 
回 穿 ， ed RTP 没有 众所周知 的 端口， 因为 它 与 能 够 与 端口 标识 的 不 同 应 用 程序 一 同 工 作 


因此 它 可 以 在 一 个 UDP 端 上 上 运行， 以 5004 为 作为 默认 端 11。，RTP 与 辅助 协议 RTCP 一 回 用 来 获取 有 
关 数 据 传 给 质 量 a i 正在 进行 会 话 信 息 的 反馈 
RTP 是 如 何 工 作 的 


RTP 消息 由 首部 和 有 效 载 痊 组 成 。 图 5-45 显示 了 RTP 首部 格式 的 内 容 。 实 时 流量 是 在 RTP 分 组 
中 的 有 效 载荷 携 刘 的 。 注意 ，RTP 本 里 并 没有 处 理 资源 管理 和 预 留 ， 并且 也 不 能 保 让 实时 服务 的 服务 
质量 。RTP 假设 这 些 属性 如果 提供 的 话 ) 由 底层 的 网 络 提 供 。 既 然 五 联网 偶尔 会 玉 ~ 和 新 排序 分 
组 或 者 延 次 一 个 可 变 的 时 间 量 ， 为 了 处 理 这 些 问题 ，RTP 头 部 包含 时 间 币 信息 和 序列 号 ， 这 样 就 可 以 
允许 接收 方 重建 由 源 产 生 的 定时 。 利 用 这 两 个 字段 ，RTP 就 能 够 保证 分 组 是 按 序 的 、 二 定 是 耕 有 分 组 
玉 失 ， 并 同步 通信 流 。 序 列 号 对 于 每 个 RTP 分 组 发 送 都 会 递增 1。 时 间 蕉 反映 了 取样 的 RTP 数据 分 组 
中 的 第 一 个 字 节 。 有 取样 瞬 问 必须 是 从 单调 线性 增加 时 间 的 时 钟 上 获取 的 以 便 允 许 同步 和 拌 动 计算 。 也 
就 是 说 ， 当 视频 帧 分 解 为 多 个 RTP 分 组 时 ， 它 们 都 有 相同 的 时 间 稚 ， 这 就 是 为 什么 时 间 惟 不 是 以 为 分 
组 进行 重新 排序 的 原因 
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图 5-45” RTP 头 部 格式 

包含 在 RTP 头 部 的 一 个 字段 是 32 位 同步 源 标识 符 (SSRC)， 它 能 够 区 分 在 同一 个 RTP 会 话 中 的 
同步 源 。 由 于 多 个 音频 /视频 流 可 以 使 用 同一 个 会 话 ， 所 以 在 接收 应 用 程序 上 为 了 同步 目的 用 SSRC 字 
段 标识 信息 的 发 送 方 。 随 机 地 选择 数 以 便 保证 两 个 同步 源 不 在 同一 个 RTP 会 话 中 使 用 同一 个 号 。 例 
如 ,分支 机 构 也 许 会 使 用 VoIP 网 关 来 建立 两 者 之 间 的 会 话 。 然 而 ， 在 每 一 边 都 安装 了 很 多 电话 ， 央 此 
RTP 会 话 可 能 同时 包含 了 很 多 呼叫 连接 ， 这些 呼叫 连接 可 以 通过 SSRC 字段 进行 多 路 复 用 

编 解码 器 封装 

为 了 在 接收 方 重建 实时 流量 ， 接 收 方 必须 知道 如 何 翻 译 它 所 接收 的 分 组 。 有 效 载荷 类 型 标识 符 指 
明了 有 效 载荷 的 格式 和 编码 /压缩 方案 。 有 效 载荷 类 型 包括 PCM 、MPECIZMPEGC2 音频 和 视频 、JPEG 
视频 和 H.261 视频 流 。 在 任何 给 定 的 传送 时 间 内 ，RTP 发 送 方 只 能 发 送 一 种 类 型 的 有 效 载荷 ， 尽 管 这 
种 有 效 载 荷 类 型 在 传输 期 间 可 以 发 生 改 变 ， 比 如 ， 调 整 网 络 拥塞 。 


5. 5.3 标准 控制 平面 协议 : RTCP 
RTCP 是 与 RTP 一 起 使 用 的 控制 协议 。 它 在 RFC 1889 和 RFC 1890 中 标准 化 。 在 RTP 会 话 中 ， 参 
. 


与 者 周期 性 地 发 送 RTCP 分 组 来 传送 有 关 数 据 发 送 质 量 的 反馈 和 有 关 成 员 的 信息 。RFTC 1889 定义 了 5 
种 RTCP 数据 包 类 型: 
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1) RR: 接收 方 报告 。 接 收 方 报告 是 由 RTP 会 话 中 不 活跃 的 发 送 方 发 送 的 ， 上 其 中 包括 了 有 关 数 据 
发 送 的 接收 质量 反馈 ,包括 接收 的 最 大 分 组 序列 号 、 分 组 亚 失 数 、 旬 达 间 隔 抖动 (inter-arrival-jitter) 
和 用 来 计算 发 送 方 和 接收 方 之 问 往返 时 延 的 时 间 巩 这些 信息 对 于 月 适应 编码 很 有 用， 比如， 上 随 春 时 
问 的 流逝 ， 如 果 RTP 会 话 质量 版 化 ， 发 送 方 也 许 会 切换 到 更 低位 速率 的 编码 ， 这 样 用 户 会 感觉 实时 传 
输 更 平滑 些 ， 另 一 方面 ， 网 络 管理 员 通 过 监督 RTCP 分 组 来 评价 网 络 的 性 能 

2) SR: 发 送 方 报告 。 发 送 方 报告 由 活跃 的 发 送 方 产生 ,除了 在 RR 中 的 接收 质量 反馈 外 ，SR 还 
包括 一 个 发 送 方 信息 部 分 ， 提 供 媒体 间 同 步 、 累 计 分 组 计数 和 发 送 的 字数 

3) SDES: 川 来 描述 源 的 源 描述 项 。 在 RTP 数据 分 组 中 ， 源 是 由 随机 产生 的 32 位 标识 符 来 标识 
的 。 这 些 标识 符 对 于 用 户 有 些 不 使 。，RTCP SDES 包括 会 诈 参 与 少 的 独 一 的 标识 符 。 它 们 可 以 包括 用 户 
姓名 、 电 子 邮 箱 地 址 或 者 其 他 信息 

4) BYE: 指示 参与 者 的 结束 

5) APP: 特定 应 用 的 图 数 。APP 专门 用 于 为 新 应 用 程序 或 者 新 特性 的 测试 

由 于 参与 者 随时 可 以 加 入 或 者 退出 会 话 ， 所 以 知道 谁 参与 会 话 以 及 这 些 参 与 者 的 发 送 质量 如 何 很 
重要 ， 因 此 ,不 活跃 参与 者 应 该 周期 性 地 发 送 RR 分 组 并 在 退出 时 发 送 BYE。， 另 一 方面 ,那些 活跃 的 
发 送 方 应 该 发 送 SR 分 组 ， 这 不 仪 提供 与 RR 数据 相同 的 功能 而 县 还 能 保证 每 个 参与 者 都 懂得 如 何 再 次 
重 放 接收 到 的 媒体 数据 ， 最 后 ， 为 了 帮助 这 些 参 与 者 得 到 更 多 关于 其 他 参与 者 的 信息 ,参与 者 还 应 该 
周期 性 地 发 送 沉 有 标识 符号 的 SDES 分 组 来 介绍 它们 的 联系 信息 


历史 演变 : RTP 实现 资源 

RTP 是 一 个 不 提供 预 实现 系统 调用 的 开放 协议 ,实现 紧密 地 与 应 用 程序 结合 起 来 应 用 程序 开发 
者 必须 亲自 在 应 用 层 添加 完整 的 功能 ， 然而， 共享 和 重用 代码 而 不 是 从 头 开始 编码 时 会 更 加 有 效 在 
RFC 1889 规范 中 和 包含 了 无 数 可 以 直接 被 应 用 程序 借用 的 代码 上段， 这 里 我 们 提供 一 些 可 用 的 源 代码 实 
现 。 对 在 源 代码 中 的 许多 模块 略 做 修改 就 可 以 使 用 。 下 面 是 一 张 可 用 资源 的 列表 : 

e RFC 1889 中 的 独立 样 例 代 码 

® vat (http: /www-nrg. ee. lbl. gov/vat/ ). 

® tptools (ftp: /A/ftp. es. columbia. edu/ pub/ schulzrinne/ rtptools/ ) 

® NeVoT (http: A/www. es. columbia. edu/ ~ hgs/rtp/nevot. html) 

® RTP Library (http: //www. iasi. rm. cnr it/iasi/netlab/gettingSoftware. html) FE. A. Mastromartino 提 

供 了 将 RTP 功能 集成 到 C+ + 互联 网 应 用 程序 的 便利 方法 ， 

5.6 总 结 


i 

在 本 章 中 ,我 们 首先 学 习 了 提供 通过 互联 网 的 进程 到 进程 信道 的 传输 层 的 3 个 主要 特点 : 1) 端口 
寻 址 ; 2) 可 靠 的 分 组 传输 ; 3) 流速 率 控制 。 然 后 我 们 学 习 了 不 可 靠 的 无 连接 传输 协议 UDP 和 广泛 使 
用 的 传输 协议 TCP。 与 仅 在 IP 层 上 添加 一 个 端口 寻 址 功能 的 UDP 相 比 ，TCP 就 像 具 有 多 种 经 过 恨 好 验 
证 过 的 技术 的 完整 解决 方案 ， 具 体 包 括 : 1) 用 于 连接 建立 和 释放 的 三 次 握手 协议 ; 2) 确认 和 重 传 机 
制 ， 确 保 接 收 方 准确 无 误 地 接收 从 位 于 数 千 米 之 外 的 发 送 方 发 送 的 数据 ; 3) 提高 乔 吐 量 、 降 低 分 组 丢 
失 率 的 滑动 窗口 流量 控制 和 演变 的 拥塞 控 制 算法 。 我 们 举例 说 明了 各 种 TCP 版 本 ， 在 可 能 分 组 天 失重 
传 的 情况 下 ， 比 较 了 它们 的 性 能 。 最 后 我 们 学 习 了 有 关 多 流 、 多 穴 、 平 滑 速 率 控制 、TCP 友好 性 、 回 
放 重 构 和 路 径 质量 报告 等 的 传输 层 协议 的 需求 和 问题 . 

除了 协议 外 ， 本 章 还 介绍 了 实现 套 接 字 的 Linux 方法 并 描述 了 它们 的 函数 调用 。 套 接 字 接口 是 内 
核 空 间 网 络 协议 和 用 户 空间 应 用 程序 之 间 的 分 界线 因此 利用 套 接 字 接口 ， 应 用 程序 开发 人 员 就 可 以 
将 精力 集中 在 想 要 通过 互联 网 发 送 或 者 接收 什么 内 容 ， 而 不 用 处 理 网 络 协议 中 复杂 的 四 层 协议 和 内 核 
问题 ， 因 此 大 大 降低 了 开发 人 员 的 负担 ,在 第 6 章 中 ， 我们 将 看 到 有 趣 和 日 常 使 用 的 应 用 程序 ， 包 括 
电子 邮件 、 文 件 传输 、 万 维 网 、 即 时 文件 /语音 通信 、 在 线 音频 /视频 流 和 对 等 应 用 程序 .它们 是 在 
UDP、TCP 或 者 同时 在 它们 两 者 之 上 进行 的 





常见 陷阱 


窗口 大 小 : 分 组 计数 模式 与 字 节 计数 模式 

不 同 的 实现 会 对 TCP 标准 有 不 同 的 解释 。 读 者 也 许 会 对 分 组 计数 模式 和 字 节 计数 模式 的 窗口 大 小 
感到 迷惑 。 尽 管 接收 方 报告 的 接收 窗口 是 以 字 节 为 单位 的 , 但 是 前 面 有 关 cwna 的 示例 是 以 分 组 为 单 
位 的 ， 因 此 为 了 从 min (cwnd, rwnd) 选择 窗口 大 小 就 要 通过 乘 以 MSS 转换 为 字 节 。 有 些 操作 系统 直接 
使 用 字 节 计数 模式 的 cwund， 因 此 算法 应 该 调整 如 下 : 


if (cwnd < ssthresh)! 
cwnd = cwnd + MSS;， 
se 
cwnd = cwnd + (MSS*MSS)/cwnd 


} 

也 就 是 说 ， 在 慢 启 动 阶段 ， 不 是 采用 分 组 计数 模式 的 cwnd 递增 1， 而 是 当 收 到 一 个 ACK 确认 时 ， 
我 们 就 在 字 节 计数 模式 增加 1 个 MSs。 在 拥塞 避免 阶段 ， 不 是 在 分 组 计数 模式 下 将 cwnd 增加 1/ 
cwna， 而 是 在 接 到 一 个 ACK 确认 时 ， 增 加 MSS /cwnd。 


RSVP、 RTP、 RTCP 和 RTSP 
本 章 还 讨论 了 在 互联 网 上 将 RTP 协议 和 RTCP 协议 用 于 实时 流量 。 人 然而， 它们 与 相关 协议 (如 
RSVP 和 RSTP) 之 间 的 不 同 ， 需 要 加 以 澄清 : 
。 RSVP 是 一 个 信 令 协议 ， 用 以 通知 沿路 径 的 网 络 元 素 为 实时 应 用 预 留 足够 的 资源 ， 如 带宽 、 计 算 
能 力 、 排 队 空间 等 。 它 并 不 能 传送 数据 。RSVP 将 在 第 6 章 中 学 习 
。 RTP 是 一 个 用 于 实时 数据 的 传输 协议 。 它 提供 时 间 戳 、 序 列 叶 和 其 他 处 理 实时 数据 传输 中 的 定 
时 问题 。 它 依赖 于 RSVP (如 果 支 持 ) 进行 资源 预 留 以 便 提供 服务 质量 
。 RTCP 是 一 种 与 RTP 一 起 使 用 的 控制 协议 ， 具 有 服务 质量 和 成 员 管理 。 
。 RTSP 是 一 种 控制 协议 ， 能 够 发 起 和 引导 来 自 多 媒体 服务 器 的 多 媒体 数据 流 的 发 送 . 它 是 “互联 
网 VCR 远程 控制 协议 "。 它 用 于 提供 远程 控制 。 实 际 数 据 传送 像 RTP 一 样 单独 地 完成 。 
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常见 问题 解答 
1. 对 比 第 2 层 信 道 与 第 4 层 信道 (比较 它们 的 信道 长 度 、 差 错 和 延迟 分 布 ) 
答 : 信道 长 度 ; 链 路 与 路 径 
舍 道 差错 : 链 路 与 链 路 和 节点 
信道 延迟 分 布 ， 密集 与 稀 玖 
. TCP 与 UDP 对 比 〈 比 较 它 们 的 连接 管理 、 差 鲁 控制 和 流量 控制 ) 
答 : 连接 管理 : TCP 有 ，UDP 没有 
差错 控制 : UDP: 可 选 的 校 验 和 、 无 ACK 、 无 重 传 机 制 。 
TCP: 校 验 和 、ACK 、 序 列 导 和 重 传 机 制 
流量 控制 : UDP; 无 流量 控制 
TCP: 动态 窗口 大 小 用 来 探 制 传输 中 的 未 经 确认 的 字 节 ， 有 具 体 根据 网 络 状况 和 接收 方 缓冲 区 占用 情况 
侧 定 
. 为 什么 大 多 数 实时 流量 通过 UDP 传输 ? 
答 : 大 多 数 实 时 传输 能 够 狼 受 某 些 入 失 但 并 不 雷 要 延 时 重 传 。 它 的 位 速率 取决 于 发 送 方 的 编 解 但 占 而 不 
受 流 量 控制 机 制 的 影响 
4 在 TCP 中 需要 什么 机 制 以 便 支持 差错 控制 ? 
答 : 校 验 和 、ACK、 序 列 号 和 重 传 机 制 
5. 为 什么 TCP 需要 三 次 握手 而 不 是 两 次 ? 
答 : 两 边 都 需要 通知 和 确认 来 月 每 一 边 的 起 始 序 列 号 。 第 一 个 ACK 已 经 结合 了 第 二 个 通知 。 因 此 我 们 
就 仍 有 三 个 分 段 : 第 一 个 通知 、 第 一 个 ACK (第 二 个 通知 ) 和 第 二 个 ACK. 
什么 时 候 重 传 丢 失 的 TCP 分 段 ? 
答 : 二 个 重复 ACK (快速 ) 或 者 RTO 〈 重 传 超时 ) ( 慢 ) 
7. 在 人 确定 TCP 窗口 大 小 时 应 该 考虑 嘟 些 央 素 ? 
答 : 最 小 值 (拥塞 窗口 大 小 、 接 收 窗口 大 小 ) ， 其 中 拥 赛 窗口 大 小 运行 AIMD 算法 (加 法 增加 乘法 减少 ) 
诈 岂 接收 方 窗口 大 小 就 是 通告 的 接收 方 可 用 的 缓冲 区 空间 。 前 者 是 关于 网 络 状况 的 ， 而 后 者 是 关于 接收 
方 状 况 的 
8. 在 慢 启 动 和 拥塞 避免 算法 中 ,窗口 是 如 何 增长 的 ? 
答 : 慢 启 动 : 是 以 1、2、4、8 等 的 指数 形式 增加 的 
拥塞 避免 : 从 32 和 到 33 、34 、35 等 的 线性 增加 
9. 为 什么 要 将 快速 重 传 和 快速 恢复 添加 到 TCP 中 ?新 的 Reno 做 了 哪些 重大 更 改 ? 
答 : 快速 重 传 : 收 到 了 三 个 重复 的 ACK 时 ， 就 重 传 ， 比 RTO 更 早 ， 
快速 恢复 : 在 丢失 恢复 期 间 维 持 朋 同步 时 钟 行为 〈 通 过 具有 足够 大 的 窗口 大 小 发 送 新 的 分 段 ) 。 
新 的 Reno: 在 检测 到 三 重 ACK 被 确认 之 前 扩展 快速 恢复 阶段 (具有 足够 大 的 窗口 尺寸 ) 直到 所 有 分 段 
发 送 完 为 止 ， 这样 就 加 速 了 多 分 组 丢失 的 恢复 ， 
10. 在 Linux 中 ， 套 接 字 是 如 何 实现 的 ? (简单 描述 套 接 字 琐 数 的 处 理 流 和 套 接 字 的 数据 结构 ,) 
答 : 处 理 流 : 在 客户 机 或 服务 器 的 套 接 字 郧 数 调用 是 产生 软件 中 断 的 系统 调用 ， 它 强制 系统 进入 内 核 
梳 式 并 执行 注册 过 的 内 核 函 数 来 处 理 中 断 。 这 些 内 核 函数 在 内 核 空间 缓 串 区， 即 sk_ buff 和 用 户 空间 
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之 问 移动 数据 。 
数据 结构 : 在 文件 系统 中 的 特殊 inode 结构 
11. Linux 的 内 核 室 间 和 用 户 室 间 程序 中 提供 什么 内 容 用 来 过 滤 和 捕获 分 组 ? 
答 : 内 核 室 间 : Linux socket filter 
用 户 空间 库 : LUbppcap， 
用 户 空 间 工 具 : tepdump 、wireshark 等 。 
12. 在 RTP 和 RTCP 上 可 以 完成 哪些 不 能 通过 UDP 的 额外 支持 ? 
答 : RTP: 编 解 码 器 封装 、 用 于 延迟 测量 的 时 间 崔 、 用 于 丢失 检测 的 序列 号 ， 以 及 同步 机 人 制 ， 
RTCP: 将 延迟 、 拌 动 、 于 失 报 告发 送 给 发 送 方 以 便 调节 编 解 公费 的 位 速 康 。 
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.NS-2 是 用 于 TCP 研究 最 受 欢迎 的 异 拟 器 。NS-2 包含 一 个 称 为 NAM 的 软件 包 ， 它 能 够 以 任意 时 间 刻 度 可 
视 化 地 回放 全 部 仿真 ， 在 互联 网 上 可 以 找到 很 多 有 关 NS-2 的 介绍 。 使 用 NAM 观察 一 个 从 源 到 日 的 地 的 
TCP 运行 ， 在 一 台中 间 路 由 器 上 和 带 有 或 者 没有 缓冲 区 。 

。 第 一 步 : 查找 NS-2 网 站 并 下 载 针 对 用 户 日 标 平 对 的 版 本 。 

。 第 二 步 : 按照 安装 提示 来 安装 所 有 软件 包 。 

。 第 三 步 : 构建 一 个 包含 三 个 级 联 节 点 的 方案 ,一 个 节点 用 于 Reno TCP 数据 源 、 一 个 用 于 中 间 网 关 、 
一 个 用 于 日 的 地 。 将 它们 连接 起 来 的 链 路 是 爹 双 工 1Mbps。 

。 第 四 步 : 配置 一 台 具 有 大 缓冲 区 的 网 关 。 并 向 目的 地 运行 一 个 TCP 数据 源 。 

e 第 五 步 : 配置 一 台 具 有 小 缓冲 区 的 网 关 。 并 向 目的 地 运行 一 个 TCP 数据 源 。 

对 于 在 前 面 两 个 测试 中 Reno TCP 源 输 入 所 有 Reno TCP 状态 , 屏幕 转 储 它们 并 指示 TCP 数据 源 所 处 的 状 

态 。 这 些 图 形 必须 是 相关 的 。 例 如 ,为 了 表示 慢 启 动 行为 ， 你 也 许 会 用 两 个 图 形 显 示 : 1) 一 个 ACK 

正在 返回 ; 2) ACK 触发 两 个 新 的 数据 分 段 。 认 真 组 织 这 些 图 形 以 便 使 这 次 练习 的 结果 不 多 于 一 张 

A4 纸 。 仅 显示 在 屏幕 转 储 中 的 必要 信息 。 预 处 理 网 形 以 便 网 中 不 显示 窗口 的 装饰 (窗口 边缘 、 

NAM 按钮 ) ， 

， 当 控制 需要 平滑 快速 波动 的 值 时 ， 就 常常 需要 使 用 指数 加 权 移 动 平均 (Exponential Weighted Moving 
Average ，EWMA)。 典 型 的 应 用 程序 平滑 处 理 测量 的 往返 时 间 ， 或 者 计算 在 随机 早期 检测 (RED) 
队列 中 的 平均 队列 式 度 。 在 这 个 练习 中 ,希望 你 能 运行 并 观察 EWMA 程序 的 结果 。 调 节 网 络 次 延 参 
数 来 观察 EWMA 值 是 如 何 变化 的 。 

. 重新 生成 图 5-24。 

。 第 一 步 ; 为 内 核 打 补 本 :日志 记录 打 时 间 散 的 CWND/SeqNum。 
。 第 二 步 : 重新 编译 。 
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。 第 三 步 ， 安 装 新 内 核 并 重启 ， 
4. 当 你 想 要 产生 任意 一 种 分 组 类 型 时 ，Linux Packet Socket (分 组 套 接 字 ) 就 非常 有 用 。 查 找 和 更 改 一 


个 示例 程序 以 便 产生 一 个 分 组 并 使 用 同一 程序 嗅 探 分 组 。 

5. 在 FREE-BSD 8.X 稳定 版 中 找到 重 传 定 时 器 管理 。 它 是 如 何 管理 定时 器 的 ? 以 一 张 紧凑 表 形 式 将 它 
与 Linux 2. 6 做 对 比 。 提 示 : 你 可 以 通过 阅读 和 跟踪 FreeBSD 的 netinet/tcp timer.c 中 的 tcp 
timer rexmt() 困 数 和 Linux 的 net/ipv4/tcp timer.c 中 的 tcp retransmit timer() 也 数 的 
调用 路 径 来 开始 本 练习 。 

6. Linux 如 何 将 NewReno 、SACK 和 FACK 集成 在 一 起 ? 找 出 在 5.3.7 节 中 提 到 的 变量 上 的 主要 不 同 之 
处 并 且说 明 Linux 如 何 解决 这 些 冲突 ? 

7. 在 Skype、MSN 或 者 其 他 通信 软件 中 使 用 什么 传输 协议 ”请 使 用 wireshark 观察 它们 的 流量 并 找 出 
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在 MS Media Player (微软 媒体 播放 器 ) 或 RealMedia 中 使 用 的 传输 协议 是 什么 ”请 使 用 wireshark 观 
察 它们 的 流量 并 找 出 答案 
.利用 在 接 字 接口 编写 一 个 客户 机 /服务 涡 程 序 。 一 旦 用 户 键入 回 车 键 后， 客户 机 将 发 送 一 个 间 给 服 
务 占 ， 服 务 器 用 包含 任 何 意义 的 间作 为 应 答 ,。 但 是 ， 当 服务 器 收 到 闻 bye 后 ， 就 会 断 务 。 同 样 ， 
一 口 有 人 输入 “给 我 你 的 视频 ”， 服 务 器 将 立即 以 500 字 节 消息 大 小 发 送 50MB 信息 数据 。 
.编写 一 个 客户 机 /服务 右 程 序 或 者 修改 第 9 题 中 的 程序 ， 每 隔 0. 1 秒 计算 和 记录 数据 传输 率 ， 对 于 
50MB 数据 以 500 学 节 消 息 大 小 传输 。 并 用 xgraph 或 gnuplot 来 显示 结果 。 
11. 继续 进行 第 9 题 中 的 工作 。 修 改 客户 机 程序 ， 利 用 一 个 嵌 有 套 接 字 过 滤器 的 套 接 字 来 过 滤 所 有 包 
售 “the packeL_ iinfected” 的 分 组 ， 然 后 比较 50MB 数据 传输 由 套 接 字 提 供 的 平均 传输 速率 和 
出 客户 机 仪 在 用 户 层 玉 舍 消 息 的 平均 传输 速率 。 提 示 : 开源 实现 5.10 提供 了 有 关 如 何在 套 接 字 内 
汇 入 套 接 字 过 滤 融 的 信息 
12. 修改 第 9 题 中 所 编 写 的 程序 以 便 创建 一 个 基于 SCTP 的 人 套 接 字 ， 验 证 语音 谈话 可 以 持续 而 不 会 因为 
传输 大 的 文件 而 产生 阻塞 ， 即 演示 来 自 SCTP 中 的 多 流 。 提 示 : 你 可 以 在 搜索 引擎 中 输入 关键 字 
“SCTP multi-streaming demo code” 在 互联 网 上 上 找到 演示 代码 。 


书面 练习 
en IP 层 和 辫 到 端 层 之 问 差错 控制 的 作用 。 数 据 链 路 层 技术 选择 以 太 网 作为 讨论 的 主题 
] 一 张 沉 有 关键 词 的 表格 来 比较 其 日 的 、 包 含 的 字段 、 算 法 、 字 段 长 度 和 其 他 相同 /不 同 的 属性 。 为 什 
。 在 整个 分 组 的 生命 周期 中 包含 如 此 多 的 差错 控制 ” 列 出 你 的 理由 
.比较 数据 链 路 层 、IP 层 、 端 到 端 层 和 实时 传输 层 之 间 寻 址 的 作用 。 对 于 链 路 层 技术 ， 使 用 以 太 网 进行 讨 
论 在 实时 传输 协议 中 ， 选 择 RTP 来 讨论 。 用 一 张 填写 关键 字 的 表 比 较 目 的 、 唯 一 性 、 分 配 / 层 次 化 和 
其 他 属性 
.比较 数据 链 路 层 和 应 到 端 层 之 间 流 量 控制 的 作用 。 数 据 链 路 层 技术 选择 快速 以 太 网 。 用 一 张 填 写 关键 字 
的 表 比 较 目 的 、 流 量 控制 算法 、 拥 守 控 制 算法 、 重 传 定 时 占 / 算 法 和 其 他 一 些 重 要 属性 。 还 要 进一步 解 
释 不 重要 的 表 项 
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4. 一 个 移动 的 TCP 接收 方正 在 从 TCP 发 送 方 中 获 取 数 据 。 当 接收 方 越 来 越 远 (距离 发 送 方 ) 然后 再 逐渐 
拉 近 距离 时 ，RITT 和 RTO 是 如 何 变 化 的 ? 假定 移动 速率 非常 快 ， 因 此 传 延迟 在 1 秒 内 从 100ms 变 


为 300ms 


5. 一 条 运行 TCP 的 连接 在 一 条 具有 500ms 传播 延迟 的 路 径 上 传输 ， 没 有 被 中 间 网 关 所 阻塞 。， 当 没有 使 用 窗 
口 大 小 缩放 选项 时 ， 总 大 吞吐 营 是 加 少 ? 当 使 用 窗口 大 小 缩放 选项 时 ， 最 大 在 吐 量 是 多 少 ? 
6. 假定 TCP 连接 的 看 吐 量 与 其 往返 时 间 RTT 成 反比 ， 共 享 同 一 队列 的 不 同 RTT 的 连接 享 x 不 同 的 带宽 值 


如 果 传 播 时 延 分 别 了 10ms 、100ms 、150ms， 同 时 共 孕 队列 的 服务 速率 为 200kbps， 那 么 三 个 连接 中 最 终 
带宽 共享 比例 分 别 是 多 少 ” 假 设 队列 长 度 无 穷 大 并 且 没 有 缓冲 区 溢出 〈 无 分 组 丢失 ) ，TCP 发 送 方 的 最 
大 窗口 为 20 个 分 组 ， 每 个 分 组 包含 1500 字 节 


7. Oy 队列 的 服务 速率 改 为 300kbps， 那 么 答案 将 是 多 少 ” 
8， 如果 由 TCP 发 送 方 保持 的 平滑 RTT 是 当前 的 30ms， 但 接 下 来 测量 的 RTT 分 别 为 26、32 和 24ms， 那 么 


新 的 RTT 佑 计 是 多 少 ? 

.TCP 提供 一 种 可 靠 的 字 节 流 ， 但 是 需要 由 应 用 开发 者 来 对 客户 机 和 服务 器 端 之 间 的 数据 成 “ 帧 ” ”如果 
TCP 分 段 通过 IP 分 组 来 携带 ,那么 它 的 最 大 有 效 载荷 为 65 495 字 节 。 为 什么 还 要 选择 这 样 一 个 奇怪 的 
数字 呢 7 为 什 ss 大 多 数 TCP 发 送 方 发 送 小 于 1460 字 节 的 分 组 呢 ? 比如 ,尽管 客户 机 经 过 write( ) 能 
够 发 送 3000 字 节 的 分 组 ， 但 是 服务 器 却 只 能 读 取 1460 字 节 的 分 组 。 

10. 在 绝 大 多 数 的 UNIX 系统 中 ,拥有 root 权限 执行 直接 访问 互联 网 层 或 链 路 层 的 程序 很 重要 。 但 是 在 
此 类似 于 ping 和 traceroute 的 常用 工具 却 仅 使 用 普通 用 户 账号 就 可 以 访问 互联 网 层 ,在 ri 
论 的 萌 后 义 有 怎样 的 合 义 ?你 如 何 使 自己 的 程序 像 上 述 工 具 屠 样 直接 访问 互联 网 层 ?” 简 要 提出 两 
个 解决 方案 

11. 使 用 一 张 表 来 比较 并 解释 可 以 被 Linux 2.6 支持 的 所 有 在 接 字 字段 、 类 型 和 协议 
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. | 作 丁 集成 了 时 间 惟 外 ，RTP 还 集成 了 序列 号 字段 。RTP 可 以 设计 成 去 掉 序 列 号 字段 并 使 用 时 间 蕉 
来 重 排 不 按 序 接收 的 分 组 吗 ?( 回答 是 /不 是 ， 为 什么 ?) 

,假设 读者 正在 准备 设计 一 个 利用 RTP 运行 在 TCP 之 上 而 不 是 UDP 之 |: 通过 互联 网 传输 的 实时 流 应 
用 程序 。 如 图 5-21 所 示 的 每 种 TCP 拥塞 控制 状态 中 ， 发 送 方 和 接收 方 会 遇 到 什么 情形 ?以 表格 的 
形式 比较 你 所 期 望 的 情况 与 在 UDP 之 上 设计 的 情况 

. 从 图 5-21 中 ， 和 下 六 分 布 在 单 跳 和 多 跳 环 境 中 的 同样 问题 却 要 求 不 同 的 解决 方案 。 如 果 重 传 信道 是 1 
跳 、2 跳 和 10 跳 时 ， 那 么 迟延 分 布 如 何 变化 ? 夯 出 三 个 类 似 于 图 5-21 所 示 的 关联 延迟 分 布 图 ， 以 
便 更 好 地 演示 增加 跳 数 (例如 1 跳 . 2 跳 和 10 跳 ) 的 最 佳 步骤 。 

- 当 对 分 段 添 加 一 个 每 个 分 段 的 校 验 和 时 ， 在 分 段 传递 给 其 下 层 ， 即 IP 层 之 前 TCPZUDP 都 会 包含 一 
些 在 IP 头 中 的 字段 。TCP 和 UDP 如 何 知道 IP 头 部 的 值 ? 

. 本 书 从 某 种 程度 上 详细 介绍 了 不 同 版 本 的 TCP。 找 出 三 个 基 他 的 TCP 版 本 。 逐 项 填写 详细 记录 并 
用 3 行 以 内 的 文字 重点 说 明 每 个 TCP 版 本 做 出 的 贡献 。 

.如 图 5-41 所 示 ， 在 Linux 2.6 中 的 许多 部 分 并 非特 定 于 TCP/IP， 例 如 ， 读 / 写 函 数 和 套 接 字 结 构 。 
以 C 程序 员 的 观点 ,分 析 Linux 2.6 如 何 组 织 函 数 和 数据 结构 以 便于 很 容易 地 初始 化 为 不 同 的 协 
议 。 为 了 达到 目的 ， 简 要 说 明基 本 C 语言 的 编程 机 制 

.正如 5.5 节 所 述 ， 许 多 协议 和 算法 都 是 为 了 处 理 在 互联 网 上 携带 流 数据 的 挑战 而 提出 的 ， 请 找 出 支 
持 流 媒 体 数 据 在 互联 网 上 传输 的 开源 解决 方案 。 然 后， 观察 这 些 解 决 方案 ， 观 察 是 否 能 够 处 理 以 
及 如 何 处 理 5.5 节 中 所 提 到 的 问题 。 这 些 解决 方案 实现 了 这 里 介绍 的 协议 和 算法 吗 ? 

. 比较 用 于 NewReno 和 SACK 中 的 丢失 驱动 的 拥 案 控制 ，TCP Vegas 是 一 种 RTT 张 动 的 拥塞 控制 (其 
实 是 一 个 全 新 的 思路 ) 。 但 是 ，TCP Vegas 流行 用 于 年 联网 吗 ?TCP Vegas 的 流量 会 与 处 理 网 络 瓶 侨 
的 丢失 蝶 动 控制 的 流量 产生 竞争 吗 ? 

. 除了 TCP Vegas 外 ， 还 有 RTT 驱动 的 拥塞 控制 吗 ?” 或 者 你 能 够 找到 一 个 同时 考虑 分 组 亚 失 和 RITT 
以 便 避 免 拥塞 并 控制 速率 的 协议 吗 ? 它们 部 置 在 互联 网 上 健壮 和 安全 吗 ? 

. 正如 5S.4.1 节 中 所 述 ， 当 你 想 要 为 进程 间或 主机 间 打 开 一 个 套 接 字 时 ， 你 需要 分 别 分 配 AF_UNIX 
和 REF INET 这 样 的 域 参 数 。 在 僚 接 字 层 下， 如 何 为 不 同 域 参 数 的 套 接 字 实现 不 同 数 据 流 和 函数 调 
用 ”对 于 域 参 数 还 有 其 他 广泛 使 用 的 选项 吗 ? 在 何 种 条 件 下 你 才 需 要 为 参数 添加 一 个 新 的 选项 ? 

. 除了 RaF UNIX 和 RaF INET 外 ， 还 有 其 他 广泛 用 于 域 参 数 的 选项 吗 ? 它们 的 功能 是 什么 ? 
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有 了 了 底层 的 TCPZUDP 协议 栈 ， 我们 可 以 在 互联 网 上 提供 哪些 有 用 的 、 有 趣 的 应 用 服务 ? 从 20 世 
纪 70 年 代 初 开始 ， 开 发 出 了 一 些 互联 网 应 用 程序 使 得 用 户 可 以 在 互联 网 上 传输 信息 。1971 年 ，RFC 
172 发 布 了 文件 传输 协议 (FTP) ， 该 协议 允许 用 户 列 出 远程 服务 器 上 的 文件 并 人 允许 在 本 机 和 远程 服务 
器 之 间 来 回 传输 文件 。1972 年 ， 开 发 出 了 第 一 个 电子 邮件 (e-mail) 软件 (SNDMSG 和 READMAIL ) ， 
其 协议 后 来 在 1982 年 标准 化 为 RFC 821 中 的 简单 邮件 传输 协议 (SMTP)。SMTP 允许 在 计算 机 之 间 传 
输电 子 邮 件 ， 并 且 它 逐渐 成 为 最 受 欢迎 的 网 络 应 用 程序 。 同 年 ， 还 发 布 了 第 一 个 远程 登录 规范 RFC 
318。 远程 登录 允许 用 户 登 录 到 远程 服务 右 机 融 ， 就 像 他 们 坐 在 这 些 计算 机 前 一 样 。1979 年 创建 了 
USENET， 它 是 UNIX 公司 和 用 户 的 组 织 。USENET 用 户 形成 了 运行 在 公告 牌 似 系统 上 的 数 千 个 新 闻 组 ， 
用 户 可 以 在 其 上 【 读 取 和 发 送信 息 。 新 闻 服务 兢 之 间 信 息 传送 于 1986 年 标准 化 成 为 RFC 977 中 的 网 络 新 
闻 传 输 协 议 (NNTP) 

20 世纪 80 年 代 ， 一 种 新 型 互联 网 服务 开始 绒 露 头角 。 与 以 往 只 允许 授权 用 户 访问 的 系统 不 同 ， 
许多 新 型 互联 网 服务 几乎 向 所 有 具有 适当 客户 机 软件 的 人 群 开 放 。Archie 是 第 一 款 允 许 用 户 在 选择 的 
匿名 FTP 站 点 数据 库 中 搜索 文件 的 互联 网 搜索 引擎 。Gopher 服务 器 提供 一 种 菜单 式 接口 搜索 互联 网 寻 
找 标 题 或 文件 摘要 中 的 关键 词 。Gopher 协议 于 1993 年 标准 化 为 RFC 1625。 广 域 信息 服务 器 (WAIS) 
于 1994 年 定义 在 RFC 1625 中 ， 它 能 够 控制 多 个 Cophe 搜索 互联 网 并 且 将 搜索 结果 按 相关 性 进行 排序 。 
万 维 网 (WWW) 是 由 欧洲 粒子 物理 研究 所 (CERN) 于 19895 创立 的 。 随 后 于 1996 年 在 RFC 1945 中 
定义 为 超 文本 传输 协议 (HTTP) ， 它 允许 以 集成 了 文本 、 图 表 、 声 音 、 视 频 和 动画 的 超 文本 标记 语言 
(HTML) 格式 访问 文档 

随 着 新 的 互联 网 应 用 的 不 断 出 现 ， 出 现 了 一 个 有 趣 的 问题 : 创造 新 应 用 的 驱动 力 是 什么 ”从 上 
述 互 联网 服务 的 演变 中 ， 很 容易 得 出 结论 ， 那 就 是 人 - 机 器 和 人 -人 之 间 的 通信 已 然 成 为 推动 新 的 
互联 网 应 用 开发 的 驱动 力 。 一 般 来 讲 ， 人 - 机 器 通信 和 只 是 用 来 访问 互联 网 上 的 数据 和 计算 资源 。 例 
如 ， 远 程 登 录 提 供 一 种 使 用 远程 机 器 上 的 资源 的 一 种 方法 ; FTP 便于 数据 共享 ; COPHER 、WAIS、 
WWW 能 够 搜索 并 获取 文档 等 ，1987 年 RFC 1035 文档 提出 的 域名 系统 (DNS) 则 通过 将 主机 IP 地 
址 抽象 为 一 种 易于 人 们 理解 的 主机 名 来 解决 主机 地 址 和 命名 的 问题 。 1990 在 RFC 1157 文档 规定 的 
简单 网 络 管理 协议 (SNMP)， 可 被 管理 员 用 于 进行 远程 网 络 管理 和 监控 。 男 一 方面 人 一 人 之 间 的 
通信 用 于 消息 交换 。 举 一 些 简单 的 例子 ， 电 子 邮件 在 用 户 之 间 提 供 了 异步 交换 消息 的 方法 ; 1999 年 
RFC 2453 文档 中 带 有 会 话 启 动 协议 (SIP) 的 网 络 电 话 (VoIP) 是 一 个 人 -人 通信 的 同步 方式 。 
VoIP 使 人 们 可 以 将 互联 网 作为 电话 呼叫 的 传播 介质 来 使 用 。 同时， 机 器 - 机 器 通信 ， 如 对 等 (P2P) 
应 用 程序 也 在 绒 圳 头角 。P2P 被 看 做 是 消息 和 数据 交换 的 未 来 ， 它 允许 用 户 不 必 通 过 集中 式 服 务 器 
的 对 等 来 交换 文件 ，BitTorrent (BT) 就 是 一 个 PPP 应 用 的 实例 。 尽管 IETF 并 没有 针对 P2P 的 标准 
化 协议 ， 但 JXTA (Juxtapose) 、Sun Microsystems 在 2001 年 提出 了 一 种 P2P 协议 规范 ， 虽 在 提高 P2P 
应 用 程序 之 间 的 互 操作 性 

在 开始 设计 一 种 新 的 互联 网 协议 之 前 ， 人 们 首先 需要 解决 一 些 一 般 性 和 特定 应 用 的 问题 。 大 体 要 
求 从 如 何 设计 用 于 客户 端 请求 和 服务 器 端 回应 的 信息 协议 (这些 消息 是 否 以 固定 长 度 二 进 制 字符 串 作 
为 底层 协议 还 是 以 长 度 可 变 的 ASCII 来 表示 ) 到 客户 端 如 何 定 位 服务 器 或 服务 器 如 何 才 能 使 自己 对 客 
户 机 是 可 以 访问 的 ， 客 户 机 /服务 占 是 否 应 该 运行 在 TCP 或 者 UDP |:， 服 务 右 是 否 应 该 并 发 地 或 递归 
地 服务 于 客户 机 。 但 是 ， 特 定 应 用 取决 于 功能 与 应 用 的 特点 。6. 1 节 将 讨论 这 些 一 般 性 的 问题 。 特 定 
应 用 问题 留 到 有 关 特 定 应 用 的 章节 中 进行 讨论 。 

首先 ，6. 2 节 介 绍 层 次 化 名 字 服 务 的 DNS。 我 们 介绍 了 DNS 的 关键 思想 ， 如 域 层次 化 、 名 字 服 务 
任 和 名 字 解 析 ， 以 及 经 典 的 开放 源 代码 软件 包 、 伯 克利 互联 网 域名 ( Berkeley Internet Name Domain ， 
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BIND) ， 接 下 来 , 在 6.3 节 中 讨论 电子 邮件 。 我 们 重点 介绍 消息 格式 和 3 个 电子 邮件 协议 ， 利 用 
amail 作为 开放 源 代码 实现 的 例子 进行 解释 。6.4 节 将 介绍 WWW,， 它 覆 盖 了 网 络 命名 和 寻 址 。 还 讨 
论 了 Web 数据 格式 、HTTP 及 其 代理 机 制 ， 并 且 利 用 著名 的 Apache 作为 开放 源 代 码 的 实例 。 在 6.5 市 
中 将 学 习 FTP 和 它 的 文件 传送 服务 、 运 行 模型 和 开放 源 代码 实例 wu-ftp。 网 络 管理 将 在 6.6 节 中 介 
绍 。 我 们 将 学 习 SNMP， 包 括 其 体系 结构 框架 、 用 于 信息 管理 的 数据 结构 ， 并 以 net-snmp 作为 其 开放 
源 代码 实现 。 然 后 ， 分 别 在 6.7 节 和 6.8 节 中 讨论 两 个 互联 网 多 媒体 应 用 : VoIP 和 流 媒 体 ， 对 应 的 开 
放 源 代码 例子 为 Asterisk 和 Darwin。 最 后 在 6. 9 节 中 讨论 对 等 应 用 并 用 BitTorrent 作为 例子 实现 。 


历史 演变 : 移动 应 用 

与 桌面 应 用 相 比 ， 移 动 应 用 主要 指 具 有 高 移动 性 的 手持 设备 ， 如 智能 手机 和 移动 电话 。 这 些 设备 
一 般 是 配置 了 某 种 程度 的 计算 能 力 和 互联 网 连接 能 de 
算 设备 。 智 能 手机 拥有 较 大 的 屏幕 、 多 种 触摸 接口 、 图 形 加 束 芯 片 、 加 速 计 和 基于 定位 的 技术 ， 移 动 
应 用 程序 有 助 于 用 户 保持 井然 有 序 、 寻 找 附 近 的 资源 Wo 并 保持 数据 与 他 们 的 
在 线 账户 或 个 人 计算 机 同步 。 有 多 种 移动 设备 平台 同时 也 开发 了 很 多 应 用 程序 。 表 6-1 列 出 了 6 个 移 
动 应 用 程序 市 场 (Application Marketplace) 提供 商 。Application Marketplace 是 一 种 允许 用 户 浏览 和 下 载 




















从 商业 到 游戏 、 从 娱乐 到 教育 的 一 切 流行 应 用 程序 的 流行 服务 。 
表 6-1 6 个 移动 Application Marketplace 提供 商 
名 字 提 供 商 提供 的 应 用 操作 系统 开发 环境 
Android Market Google 15 000 Android Android SDK 
App Catalog Palm 250 webOS Mojo SDK 
App Store Apple 100 000 iPhone OS iPhone SDK 
. pp World RIM 2000 BlackBerry OS BlackBerry SDK 
Ovi Store Nokia 2500 Symbian Symbian SDK 
Marketplace for Mobile Microsoft 376 Windows Mobile Windows Mobile SDK 














随 着 桌面 应 用 的 逐步 成 熟 当 然 仍 处 在 演变 之 中 ， 一 种 新 的 移动 应 用 在 走 进 人 们 的 视野 。 让 我 们 来 
看 看 4 种 流行 的 iPhone 应 用 。 利 用 Evernote， 用 户 可 以 通过 任何 一 个 浏览 器 跨越 多 种 平台 同步 保存 捕 
获 文本 、 图 片 和 视频 文件 。 作 为 一 个 基于 位 置 GPS/3G 的 服务 ，AroundMe 列 出 一 些 附 近 的 服务 ， 如 用 
户 周围 的 饭店 、 停 车 场 等 ; Associated Press Mobile News Network 是 基于 位 置 的 个 性 化 新 闻 服 务 ， 它 将 本 
地 和 有 趣 的 新 闻 发 给 用 户 ; Wikipanion 则 是 一 种 Wikipedia 浏览 应 用 程序 ， 当 用 户 输入 关键 字 时 它 就 会 
自动 搜集 并 转换 网 页 。 


6.1 一 般 问题 

人 共存 ， 所 以 客户 机 和 服务 顺 如 何 识 别 彼此 是 首要 的 技术 问题 。 我 们 
在 此 回顾 第 5 章 中 介绍 过 的 端口 概念 来 解决 这 一 问题 。 在 互联 网 上 提供 服务 之 前 ， 服 务 融 应 该 首先 启 
动 守护 进 程 (daemon) 。 守 护 进 程 就 是 : 指 运行 在 后 台 提 供 服 务 的 软件 程序 。 因 此 第 二 个 问题 就 是 服务 
需 如 何 启动 。 启动 守护 进程 的 方式 既 可 以 是 直接 的 也 可 以 是 间接 的 ， 也 就 是 说 ， 一 个 守护 进程 既 可 以 
独立 运行 也 可 以 在 一 个 超级 守护 进程 的 控制 下 启动 。 互 联网 应 用 程序 可 以 分 为 交互 式 的 、 文 件 传 送 或 
实时 的 ， 每 种 程序 对 于 延迟 、 封 动 、 吞 吐 量 或 丢 包 率 都 有 不 同 的 旧 求 。 有 些 应 用 程序 输出 的 实时 流量 
有 严格 的 低 延 退 要 求 ， 但 可 以 容忍 一 定量 的 数据 丢失 。 另 一 些 应 用 程序 则 会 产生 短 的 交互 式 或 者 长 的 
文件 传输 流量 ， 前 者 要 求 低 延 迟 而 后 者 则 可 以 容忍 较 长 的 延迟 。 但是， 两 者 都 优先 选用 无 丢失 的 可 靠 
传输 。 这 些 要 求 需 要 由 服务 顺 控 制 ， 因 此 互联 网 服务 器 分 类 就 成 为 第 三 个 问题 。 最 后 ， 尽 管 所 有 底层 
协议 消息 都 是 回 定 长 度 的 二 进 制 字 串 格式 ， 但 征 丰 同 的 全 划 不 于 用 于 应用 层 协 说 ， 因为 它们 的 请 求 
和 啊 应 消息 是 不 同 的 并 且 通 常 包 含 可 变 长 的 参数 。 因 此 ， 这 就 是 第 四 个 一 般 性 问题 ， 
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6. 1. 1 端口 如 何 工作 

正如 5.1 节 所 述 ， 互 联网 上 的 每 台 服 务 器 都 是 通过 TCP 或 者 UDP 端口 来 提供 服务 的 。 端 口 用 于 命 
名 承载 长 期 或 短期 会 话 的 迪 辑 连接 的 端点 。 根 据 互 联网 号 码 分 配 机 构 (IANA) 分 配 的 端 品 号， 端口 号 
分 为 以 下 三 类 : 

1) 众所周知 端口 号 范围 从 0 ~ 1023。 

2) 注册 端口 号 范围 从 1024 ~49 151, 

3) 动态 或 者 私 用 端口 号 范 闭 从 49 152 ~65 535 

众所周知 端口 号 仅 用 于 系统 (或 者 根 ) 进程 或 者 拥有 特权 用 户 执行 的 程序 。 注 册 端 口号 只 能 由 普 
通用 户 进程 使 用 。 动 态 端口 可 供 任何 人 使 用 | 

为 了 演示 端口 如 何 工 作 ， 我 们 举 一 个 如 图 6-1 所 示 的 例子 。 服务 器 机 顺 运 行 了 4 个 守护 进程 以 提 
供 不 同 的 服务 。 每 个 后 台 程 序 会 在 它 自 己 的 唯一 端 哲 上 监听 inbound (向 内 ) 客户 机 请 求 的 到 达 以 及 客 
户 机 请 求 内 容 。 在 图 6-1 中 ， 以 FTP 守护 进程 为 例 ， 只 监听 端口 21 并 等 待 客户 端 请 求 的 到 达 。 当 FTP 
发 起 一 个 outbound (向 外 ) 连接 时 ,内 核 就 为 它 分 配 一 个 大 于 1023 的 未 使 用 端口 作为 其 源 端 口 ， 在 我 
们 的 例子 中 为 2880.， 连接 中 的 FTP 客户 机 请 求 它 自 己 的 IP 地 址 和 源 端 口 以 及 服务 器 机 器 的 IP 地 址 和 
服务 端 蝇 ， 即 21， 然 后 将 连接 请 求 发 往 服务 顺 。 一 旦 收 到 客户 端 连 接 请 求 ，FTP 守护 进程 立即 自我 复 
制 ， 称 为 派生 〈forking) 一 个 子 进程 。 然 后 子 进程 就 建立 与 FTP 客户 机 的 连接 并 处 理 随 后 来 站 该 客户 
机 的 请 求 ， 而 父 进 程 则 返回 监听 来 白 其 他 客户 机 的 请 求 。 

客户 机 1 机 器 服务 器 程序 








用 户 代理 外 出 端口 监听 端口 服务 器 守护 程序 








客户 机 守护 进程 








客户 机 2 机 器 守护 进程 








用 户 代理 外 出 端口 守护 进程 
| ”Wed 浏览 器 上 8573 es 


图 6-1 端口 工作 的 一 个 例子 























6. 1.2 服务 器 如 何 启 动 

在 大 多 数 UNIXALinux 平台 上.， 服 务 带 进程 既 可 以 独立 运行 也 可 以 在 一 个 你 为 (x)inetd 的 超级 守 
护 进 程控 制 下 运行 。 当 运行 时 ， 为 了 应 用 配置 文件 中 列 出 的 服务 ，( x) ineta 通过 将 套 接 字 绑 定 到 端 
口 来 监听 所 有 的 服务 端口 。 当 发 现 一 个 客户 机 的 请 求 到 达 它 的 一 个 端口 时 ，( x) ineta 就 检查 并 确定 
与 请 口 对 应 的 服务 ， 调 用 相应 的 服务 器 程序 来 为 客户 机 服务 ， 并 且 继 续 监 听 端 口 

利用 (x) ineta 来 局 动 服务 天 程序 有 许多 优点 。 首 先 ， 当 服务 器 程序 的 配置 文件 更 改 后 ， 由 于 每 
当 客 户 机 请 求 到 达 时 (x) ineta 都 会 重新 启动 程序 读 取 配置 文件 ， 所 以 更 改 会 立即 生效 。 另 一 方面 ， 
独立 服务 吾 要 求 在 配置 更 改 生效 之 前 显 式 地 重启 动 。 其 次 ， 当 一 台 服 务 器 骨 溃 时 ，(x) ineta 便 产 
生 一 个 新 的 服务 天 进程 ， 而 骨 溃 的 独立 运行 的 服务 顺 却 保持 原样 。 因此 其 服务 也 不 能 提供 。 尽 管 


(x) inetq 有 上 述 优点 ， 它 仍 有 两 个 导致 性 能 降级 的 缺陷 。 一 个 是 它 必 须 为 每 个 到 达 的 客户 机 请 求 派 
生 并 执行 一 个 服务 器 程序 。 另 一 点 就 是 服务 器 程序 必须 为 每 个 客户 机 构建 它 的 可 执行 镜像 并 读 取 配置 


文件 。 一 般 来 讨 ， 对 于 重负 载 的 服务 器 推荐 使 用 独立 方案 。 


6. 1.3 服务 器 分 类 
下 联网 服务 器 可 以 从 两 方面 进行 分 类 。 一 是 服务 器 如 何 处 理 请 求 ， 是 并 发 还 是 迭代 ? 另 一 种 分 类 
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方法 根据 底层 的 传输 协议 ， 面 向 连接 的 服务 器 使 用 TCP 实现 ， 而 无 连接 的 服务 咒 使 用 UDP 来 实现 。 这 
儿 方面 的 结合 就 产生 了 了 4 种 类 型 的 互联 网 服务 需 

并 发 服务 器 与 迭代 服务 器 

大 多 数 互 联网 服务 都 是 基于 客户 机 /服务 器 模型 的 ， 其 目的 在 于 激活 用 户 进 程 共享 网 络 资源 。 也 就 
是 说 ， 多 个 客户 机 请 求 可 以 并 发 地 到 达 服 务 器 服务 器 有 两 种 方案 对 这 种 设计 诛 则 做 出 响应 : 并 发 服 
务 器 同时 控制 多 个 客户 端 ， 而 迭代 服务 器 会 一 个 接着 一 个 地 处 理 客户 机 

- 台 并 发 服务 器 进程 在 同一 时 间 并 发 地 处 理 多 个 客户 机 。 当 服务 器 接收 到 一 个 客户 机 请 求 时 ， 它 
就 创建 一 份 月 我 复制 ， 雹 论 是 子 进 程 还 是 一 个 线程 :。 为 了 简单 起 见 ， 这 里 我 们 假定 创建 了 一 个 子 进 程 。 
每 个 子 进程 都 是 服务 器 程序 的 一 个 实例 ， 它 继承 了 套 接 字 描 述 符 (在 5.4.2 节 中 描述 过 ) 和 其 他 从 父 
进程 继承 的 变量 。 子 进程 服务 客户 机 并 释放 父 进程 ， 这样 它 就 可 以 接收 新 的 客户 机 请 求 。 由 于 父 进 程 
仅 处 理 新 到 达 的 客户 机 请 求 ， 因 此 它 不 会 被 来 自 客户 机 的 重负 和 载 所 阻塞 。 同样 ， 由 于 每 台 客 户 机 由 一 
个 子 进程 处 理 并 且 所 有 的 进程 按 计划 由 处 理 涡 运行 ， 所 以 就 可 以 实现 子 进程 间 (并 且 因 此 在 现 有 的 客 
户 机 之 间 ) 的 并 发 执行 

与 并 发 服务 器 相反 ， 和 迭代 服 务 器 每 次 仪 处 理 一 个 客户 机 请 求 。 当 多 个 客户 机 请 求 到 达 服 务 器 时 ， 
不 是 派生 子 进 程 ， 而 是 服务 器 对 客户 机 请 求 排 队 并 按 顺序 处 理 ， 如 果 当 前 有 太 多 的 客户 机 或 者 有 些 客 
户 机 请 求 了 很 长 的 服务 时 间 ， 和 迭代 处 理会 造成 阻 赛 ， 这 将 会 延长 对 客户 机 的 响应 时 间 。 因 此 迁 代 服 务 
器 仅 适 用 于 少量 的 短 服 务 时 间 的 请 求 

面向 连接 服务 器 与 无 连接 服务 器 

另 一 种 划分 服务 器 的 方法 是 根据 它们 是 面向 连接 的 还 是 无 连接 的 。 面 向 连接 的 服务 器 利用 TCP 作 
为 其 底层 的 传输 协议 ; 而 无 连接 的 服务 器 采用 UDP。 下 面 我 们 讨论 这 两 者 之 问 的 不 同 之 处 

首先 ， 对 每 一 个 要 发 送 的 分 组 ， 面 癌 连 接 的 服务 器 都 有 20 字 节 的 TCP 头 部 开销 ， 而 无 连接 服务 由 
仅 有 8 字 节 的 UDP 头 部 开销 ， 其 次 ， 面 向 连接 的 服务 器 在 传递 数据 之 前 必须 与 客户 机 之 间 创 建 一 条 连 
接 ， 发 完 数 据 后 就 终止 连接 。 而 无 连接 服务 器 则 无 需 创建 连接 就 可 传输 数据 。 因 为 一 台 无 连接 服务 器 
并 不 维持 任何 连接 状态 ， 所 以 它 可 以 动态 地 支持 更 多 短 时 间 的 客户 机 。 最 后 ， 当 一 条 或 者 多 条 客户 机 
和 服务 器 之 间 的 链 路 拥塞 时 ， 面 向 连接 的 服务 哄 将 利用 TCP 的 拥塞 控制 来 抑制 客户 机 ， 如 5.3.4 节 中 
所 述 。 男 一 方面 ， 无 连接 的 客户 机 和 服务 右上 有 具 有 不 能 调节 的 数据 发 送 速 率 ， 它 仅 受 到 应 用 程序 自身 或 
接 入 链 路 的 带宽 控制 。 因 此 ,由 于 持续 拥塞 导致 的 过 多 信息 丢失 就 可 能 发 生 在 无 连接 的 互联 网 服务 上 上 ， 
并 且 在 震 要 时 它 将 耗费 客户 机 或 者 服务 器 更 多 的 精力 来 重 传 丢失 的 数据 

表 6-2 中 列 出 了 流行 的 互联 网 应 用 程序 和 与 之 对 应 的 应 用 程序 协议 和 传输 协议 。 该 表 中 显示 了 电 
子 邮 件 、 远 程 终端 访问 、 文 件 传送 和 Web 应 用 程序 使 用 TCP 作为 底层 的 传输 协议 传送 应 用 程序 级 数 
据 ， 因 为 这 些 应 用 程序 的 正常 操作 运行 取决 于 可 靠 的 数据 传输 。 另 一 方面 ,， 像 DNS 的 名 字 解 析 应 用 程 
序 (如 DNS) 运行 在 UDP 上 而 不 是 TCP， 以 避免 连接 建立 延迟 。 网 络 管理 应 用 程序 利用 UDP 在 互联 
网 上 传 答 网 络 管理 消息 ， 因 为 它们 是 基于 事务 的 协议 并 且 即 使 在 一 个 糟糕 的 网 络 环境 里 也 必须 运行 
UDP 比 起 TCP 更 适用 于 RIP， 因 为 RIP 路 由 表 在 相 邻 路 由 器 之 间 周 期 性 更 新 ， 所 以 一 些 丢 失 的 更 新 也 
可 以 被 最 新 的 更 新 所 恢复 。 但是, 在 BGP 中 采用 TCP， 使 得 BGP 路 由 器 能 够 与 远程 对 等 BCP 路 由 器 维 
持 一 种 保 活 机 制 。 互 联网 电话 和 音频 /视频 流 应 用 程序 一 般 都 运行 在 UDP 上 。 这 些 应 用 程序 可 以 忍受 
一 个 小 部 分 的 分 组 丢失 ， 因 而 对 于 它们 的 运行 来 说 ， 可 靠 的 信息 传输 并 不 是 那么 重要 。 此 外 ， 大 多 数 


组 播 应 用 运行 在 UDP |[:， 因 为 TCP 不 能 与 组 播 一 起 工作 。 有关 P2P 应 用 的 有 趣 点 在 于 它们 通过 UDP 
来 向 对 等 发 送 大 量 的 搜索 查询 ， 然 后 再 使 用 TCP 向 选择 的 对 等 传输 数据 
服务 器 的 四 种 类 型 


迄今 为 止 ， 已 经 介绍 过 的 服务 天 可 以 分 为 以 下 四 种 类 型 : 

1) 迭代 无 连接 服务 带 。 

2) 过 代 面 向 连接 服务 此 

3) 并 发 无 连接 服务 右 . 

4) 并 发 面向 连接 服务 天 

迭代 无 连接 服务 器 是 最 常见 的 服务 器 并 且 很 容易 实现 。 图 6-2 中 显示 了 和 迭代 无 连接 客户 机 和 服务 
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表 6-2 应 用 层 协议 与 底层 协议 
应 用 | 应 用 层 协 议 | 底层 协议 

电子 邮件 SMTP, POP3, IMAP4 TCP 

远程 终端 访问 Telnet TCP 

文件 传输 FTP TCP 

Web HTTP TCP 

Web 缓存 ICP 典型 的 UDP 

名 字 解 析 DNS 典型 的 UDP 

网 络 文件 系统 NFS 典型 的 UDP 

网 络 管理 SNMP 典型 的 UDP 

路 由 协议 RIP, BGP, OSPF UDP (RIP), TCP (BGP), IP (OSPF) 
网 络 电 话 SIP，RTP，RTCP 或 厂商 专用 (如 Skype) 典型 的 UDP 

流 媒体 RTSP 或 专用 (如 RealNetworks) 典型 的 UDP， 有 时 TCP 

P2P 专用 (如 BitTorrent，eDonkey) UDP 用 于 请 求 而 TCP 用 于 数据 传输 
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图 6-2 ”和 迭代 无 连接 客户 机 和 服务 器 

器 之 问 的 对 应 工作 流 。 首 先 ， 服 务 器 为 提供 的 服务 创建 一 个 绑 定 到 众所周知 端口 的 套 接 字 。 此 后 ， 服 
务 吾 就 重复 调用 readfronm () 函数 从 套 接 字 中 读 取 客户 机 请 求 ， 这 里 客户 机 请 求 队列 中 的 请 求 一 个 地 
接着 一 个 地 得 到 服务 .服务 器 通过 调用 sendto () 发 送 响 应 。 由 于 这 种 体系 结构 的 简洁 性 ， 所 以 迭代 
无 连接 服务 天 非常 适用 于 短 的 和 不 重要 的 服务 。 

迭代 面向 连接 服务 器 是 一 个 每 次 处 理 一 个 客户 机 连接 的 单 进 程 。 与 前 面 一 样 ， 服 务 器 首先 创建 一 
个 绑 定 到 某 个 端口 的 套 接 字 。 然 后 服务 顺 将 套 接 字 置 于 被 动 模 式 监 听 第 一 个 连接 (请 求 ) 的 到 达 . 一 
旦 收 到 一 个 客户 机 连接 〈 请 求 ) ， 它 将 重复 地 接收 来 自 客户 机 的 请 求 并 做 出 响应 。 当 客户 机 结束 时 ， 
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服务 器 关闭 连接 并 返回 到 等 待 接收 (wait to accept) 状态 直到 下 一 个 连接 (请求) 到达 。 在 服务 时 间 
内 如 果 有 新 到 达 的 连接 请 求 则 会 排 了 从。 对 于 一 个 短 时 间 的 连接 ， 和 迭代 面向 连接 模式 能 很 好 地 工作 ， 但 
是 服务 器 如 果 运 行 在 迭代 无 连接 服务 带 模 式 就 会 有 更 小 的 开销 。 对 于 一 个 长 时 间 的 连接 ， 这 种 模式 会 
造成 较 差 的 并 发 性 和 延迟 。 因 此 ,很 少 使 用 。 

并 发 无 连接 服务 器 适用 于 拥有 高 请 求 量 但 仍 需要 快速 周转 时 间 的 服务 。DNS 和 网 络 文件 系统 ( NFS) 
就 是 两 个 例子 。 并 发 无 连接 服务 器 首先 创建 一 个 绑 定 到 端口 的 套 接 字 ， 但 是 却 让 套 接 字 是 无 连接 的 ， 
即 不 能 与 任何 客户 机 通信 。 然 后 服务 器 开始 从 客户 机 接收 请 求 并 通过 派生 子 进 程 〈 或 线程 ) 处 理 它 
们 ， 一 旦 完成 就 立即 退出 。 

并 发 面向 连接 服务 器 的 处 理 流 如 图 6-3 所 示 ， 它 广 受 欢迎 。 上 基本 上， 它们 与 并 发 无 连接 服务 带 的 
[ 作 原 理 相似 ， 但 在 连接 的 建立 上 贡 有 差异 ， 它 包含 一 种 额外 的 TCP 天 次 握手 。 服 务 器 程序 使 用 两 种 
套 接 字 : 父 进 程 使 用 的 监听 套 接 字 和 子 进程 使 用 的 已 连接 或 正在 接收 套 接 字 。 服 务 融 创建 一 个 与 端口 
绑 定 的 套 接 字 后 将 它 置 于 监听 模式 ， 服 务 天 进程 就 会 阻塞 accept () 葡 数 直到 一 个 客户 机 连接 请 求 到 
达 为 止 。 为 已 连接 套 接 字 一 旦 从 accept () 返回 一 个 新 的 文件 描述 符 ， 它 将 派生 一 个 继承 了 是 个 套 接 
字 的 子 进 程 。 子 进程 关闭 监听 套 接 字 并 通过 已 连接 套 接 字 与 客户 机 通信 。 父 进程 随后 关闭 已 连接 套 接 
字 ， 返 回 到 accept () 的 阻塞 状态 ， 
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! 连接 请 求 ea 
连接 9 
收受 
ee 
派生 
| 
| 
本 关闭 (监听) | | 关闭 (接受 ) | 
请 求 
™ 服务 器 进程 
读 取 
了 
处 理 
1 
写 
应 答 
vy 
读 取 需要 时 重复 
需要 时 重复 关闭 (接受 ) 
子 进 程 
关闭 





图 6-3 并 发 面向 连接 客户 机 和 服务 器 
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历史 演变 : 云 计算 

传统 上 ， 一 个 组 织 倾向 于 拥有 自己 的 网 络 基础 设施 、 服 务 器 平台 、 应 用 软件 以 及 运行 它 自己 的 计 
算 环境 。 另外 一 种 范 型 ， 称 为 云 计 算 ， 是 将 计算 环境 外 包 给 其 公共 基础 设施 既 可 以 是 分 布 式 ， 也 可 以 
是 集中 式 统一 管理 的 集中 式 服务 提供 商 。 国 家 标准 和 技术 协会 (NIST) 将 云 计算 定义 为 一 种 用 于 激活 
a 从 具有 简单 瘦 客 户 
机 胖 服务 器 概念 的 网 络 计算 演变 而 来 ， 云 计算 进一步 将 胖 服 务 器 外 包 给 服务 器 提供 商 ,， 使 用 下 面 三 种 
服务 供给 模型 一 一 软件 即 服务 (SaaS) 、 平 台 即 服务 (PaaS)、 基 础 设施 即 服务 (1aaS) 

Google Apps (http: /A/google. com/a/) 和 Apps. Gov (http: //apps. gov) 是 两 家 早期 的 云 服 务 供 应 
商 。 最 终 仅 会 有 极 少 数 像 谷 歌 、 亚 马 逊 公司 所 运营 的 公共 B2C ( 商 客 对 客户 ) 云 ， 但 是 会 有 很 多 由 商 
业 公 司 (如 IBM) 所 运营 的 公共 B2B (商家 对 商家 ) 云 ， 甚 至 有 更 多 由 厂商 和 制造 商 提 供 的 更 专用 的 
云 。 这 里 “公共 ”或 者 “专用 ”意味 着 云 是 否 向 公众 提供 服务 


6. 1.4 应 用 层 协议 的 特点 

互联 网 服务 器 和 客户 机 运行 在 终端 主机 上 并 且 通 过 应 用 层 协 议 进 行 通信 。 应 用 层 协 议 指定 从 客户 
机 到 服务 咒 消 息 交 换 的 句法 和 语义， 句法 定义 了 消息 的 格式 ， 而 语义 指定 客户 机 和 服务 顺应 该 如 何 解 
释 消息 并 向 对 等 做 出 啊 应 。 与 谋 层 的 传输 协议 和 所 联网 苏 议 相 比 ， 应 用 层 苏 议 具 有 很 多 不 同 的 特点 。 

可 变 的 消息 格式 与 长 度 

与 信息 基 有 问 定 将 式 或 者 长 度 的 第 沁 必 ~ 第 四 层 协议 不 同 ， 层 协议 无 论 是 请 求 还 是 响应 都 可 

足 可 变 的 格式 和 长 度 。 这 是 取决 于 各 种 选项 、 te et 传输 内 容 的 大 小 。 例 如 ， 当 
cet 客户 机 可 以 将 一 些 字段 添加 到 请 求 中 以 便 指 示 客 户 机 使 用 的 浏览 器 和 语言 ， 
同样 ， 一 个 HTTP 响应 会 根据 不 同 种 类 的 内 容 更 改 其 格式 和 长 度 

多 种 数据 类 型 

应 用 层 协 议 有 多 种 数据 类 型 ， 这 就 意味 着 命令 和 应 答 既 能 以 文本 也 能 以 非 文本 形式 传输 。 比 如 ， 
telnet (远程 登录 ) 容 户 机 和 服务 带 发 送 以 一 个 特殊 字 节 (11111111) 开头 的 二 进 制 格式 的 发 送 命令 ， 
耐 SMTP 客户 机 和 服务 器 使 用 美国 7 位 ASCII 码 进 行 通信 。FTP 服务 避 以 ASCI 或 者 二 进 制 格式 来 传递 
数据 。 网 络 服 务 器 以 文本 Web 网 页 和 二 进 制图 像 进行 回复 

有 状态 的 

许多 用 户 层 协议 都 是 有 状态 的 。 也 吕 是 说 ， 服 务 顺 保留 有 关 与 客户 机 会 话 的 信息 。 比 如 ，EFTP 服 
务 融 会 记 住 客户 机 的 当前 工作 目录 和 当前 传输 类 型 (ASCI 或 二 进 制 ) 。SMTP 服务 器 在 等 待 DATA 命 
令 传输 消息 内 容 时 会 en ee de 为 了 效率 和 可 扩展 性 ,将 HTTP 设 
计 为 一 个 无 状态 协议 ， 尽 管 在 原始 协议 基础 上 添加 的 某 些 状态 会 被 客户 机 和 服务 器 保留 。 另 一 个 无 状 
态 的 例子 就 是 SMTP， 它 也 要 处 理 效 率 和 可 扩展 性 问题 。DNS 既 可 以 是 无 状态 的 也 可 以 是 有 状态 的 ， 且 
体 取决 于 它 如 何 运行 ， 这 一 点 我 们 将 在 下 面 看 到 


6.2 域名 系统 

域名 系统 (DNS) 是 一 种 层次 化 的 、 分 布 式 数据 库 系 统 ， 用 于 为 各 种 互联 网 应 用 程序 映射 主机 名 
和 域名 。 它 是 是 用 来 提供 实用 的 、 可 扩展 的 名 字 到 地 址 (有 时 是 地 址 到 和 名字 ) 之 间 的 翻译 服务 在 本 节 
中 ,我 们 将 讲 到 DNS 的 三 个 方面 : 1) DNS 工作 的 名 字 空 间 的 结构 ; 2) 定义 名 字 到 地 址 映射 的 资源 记 
录 (RR) 结构 ; 3) 名 字 服 务 吉 和 解析 器 之 间 的 操作 模型 。 最 后 ， 我 们 将 介绍 开放 源 代 码 的 实现 
BIND， 以 期 为 读 者 提供 一 个 DNS 的 实际 视图 。 


6.2.1 简介 


连接 到 网 络 上 的 计算 机 主机 需要 一 种 彼此 识别 的 方法 。 除 了 二 进 制 的 下 地址 外 ,每 台 主 机 可 能 会 
注册 了 一 个 ASCII 字符 串 作为 其 主机 名 。 就 像 在 邮政 系统 中 的 邮编 一 样 ， 它 包含 一 系列 的 字符 来 说 明 
国家 、 城 市 、 街 道 信息 ，ASCII 字符 串 唯一 地 标识 主机 的 位 置 并 且 它 比 IP 地 址 更 便于 记忆 
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回顾 ARPANET 时 代 ， 文 件 HOST. TXT 被 一 个 称 为 网 络 信息 中 心 (NIC) 的 权威 组 织 使 用 以 便 存储 
ASCTT 名 字 和 区 域内 与 所 有 主机 对 应 的 IP 地 址 。ARPANET 的 主机 管理 员 周 期 性 地 从 NIC 获取 最 新 的 
HOST. TXT， 并 将 它们 的 更 改 发 送 给 NIC。 无 论 什 么 时 候 一 台 主 机 要 和 另 一 台 主 机 建立 连接 ， 它 都 必须 
根据 HosT. TXT 将 目的 地 主机 名 翻译 为 对 应 的 全 地 址 。 这 种 方法 仅 适 用 于 小 的 网 络 ， 然 而 ， 当 有 一 个 
大 型 网 络 工 程 时 ， 就 会 出 现 可 扩展 性 和 管理 问题 ， 

RFC 882 和 RFC 883 ， 后 来 由 于 RFC 1034 和 RFC 1035 的 出 现 而 被 废除 ， 提 出 了 可 扩展 的 互联 网 主 
机 寻 址 和 邮件 转发 支持 以 及 用 于 实现 域 命 名 设施 的 协议 和 服务 器 的 层次 化 分 布 式 DNS 的 概念 和 规范 ， 
DNS 中 的 主机 有 一 个 唯一 的 域名 。 域 的 每 一 台 DNS 名 字 服 务 器 维护 它 自己 的 名 字 地 址 映射 数据 库 ， 这 
样 互 联网 上 的 其 他 系统 (客户 端 ) 可 以 通过 DNS 协议 消息 查询 名 字 服 务 器 。 但 是 我 们 如 何 将 域名 空间 
划分 成 域 呢 ? 6. 2. 2 节 将 告诉 我 们 答案 ， 


6. 2.2 域名 空间 

顶级 域 

为 了 在 一 个 大 型 网 络 中 管理 和 扩展 域名 翻译 ， 将 域名 空间 分 为 多 个 顶级 域 ， 如 表 6-3 所 示 。 每 个 
域 代表 特别 的 服务 或 者 含义 ， 并 且 进 一 步 向 下 分 成 各 个 子 域 ， 以 此 类 推 分 成 子 子 域 ,形成 一 个 层次 化 
域 树 。 在 某 个 域 树 中 的 一 台 主 机 继承 了 反 向 到 根 路 径 上 相继 域 的 目的 。 例 如 ， 主 机 www. w3. org 的 目的 
是 服务 于 WWW 社区 的 官方 站 点 ， 这 就 像 顶级 域 org 一 样 是 一 个 无 玖 利 的 组 织 。 









































表 6-3 顶级 域 
域 描 述 
com 商业 组 织 例如 英特尔 Intel (intel. com) 
org 非 租 利 组 织 例如 万 维 网 联盟 (w3. org) 
gov 美国 政府 机 构 如 国家 科学 基金 会 (nsf gov) 
edu 教育 机 构 例 如 UCLA (ucla edu) 
大 网 络 互联 网 机 构 如 联网 地 址 分 配 机 构 ， 由 它 维护 DNS 根 服务 器 gtid-servers. net) 
int 由 政府 间 国 际 条 约 建立 的 机 构 。 例 如， 国际 电信 联盟 (itu. int) 
mil 专 为 美国 军事 机 构 预 留 。 例如， 国防 部 网 络 信息 中 心 ，( nic. mil) 
双 字 母国 家 代码 顶级 域 (ceTLDs) 是 根据 ISO 3166-1 双 字 母国 家 或 地 区 代码 而 来 。 





双 字 革 国 家 代 例 
双 字 生 国 家 代 但 例如 cn (China， 中国 ) 和 uk (United Kingdom， 英 国 ) 














arpa 大 多 数 未 被 使 用 ，in-addr. arpa 域 例 外 ， 它 用 于 维护 用 于 逆向 DNS 查询 的 数据 库 
其 他 如 biz (business， 用 于 商业 ) ，idv (用 于 个 人 ) 和 info (与 .com 类 似 ) 
利用 域名 空间 的 层次 化 划分 ， 在 域 树 中 的 主机 (或 域 ) 地 址 可 以 很 容易 地 标识 出 来 ， 因 此 允许 我 


们 推测 出 DNS 的 结构 。 在 图 64 中 ， 为 我 们 提供 了 一 个 cs. nctu edu. tw 域 是 如 何 被 识别 的 例子 。 注 意 : 
域名 不 分 大 小 写 ， 这 意味 着 大 写 “CS” 等 价 于 小 写 “cs”。 

除了 已 经 标准 化 的 顶级 域外 ， 一 个 域 全 权 管 理 它 的 连续 域 。 域 管理 员 可 以 将 它 任 意 划分 成 子 域 并 
且 把 它们 分 配给 其 他 组 织 ， 既 可 以 按照 项 级 域 的 形式 (例如,，tw 下 的 com) 也 可 以 创建 一 个 新 的 域名 
(例如 ，uk 下 的 co) 。 这 个 过 程 称 为 域 委派 ， 它 会 极 大 地 减少 上 级 域 的 管理 负担 。 

区 和 名 字 服 务 器 

在 继续 本 节 内 容 学 习 之 前 最 好 清楚 地 区 分 域 (domain) 和 区 (zone) 是 非常 重要 的 。 一 个 域 通常 
是 区 的 一 个 超级 集合 。 以 图 64 为 例 来 说 明 ，tw 域 包含 4 个 区 : org、com、edu 和 tw 本身 (你 可 以 尝 
试 一 下 http: /Awww. tw)。 为 了 特别 说 明 ，tw 区 包括 * .tw 形式 的 域名 ， 除 了 *.org.tw、*.com tw 和 
*. edu. tw。. tw 区 的 主机 通常 用 于 管理 代理 的 子 域 。 

通常 在 端口 53 上 运行 的 名 字 服 务 器 是 包含 用 区 数据 文件 构建 的 数据 库 和 一 个 解析 程序 以 便 回 答 
DNS 查询 的 主机 。 在 名 字 服 务 器 中 ， 区 是 基本 的 管理 单元 ， 它 的 信息 存储 在 一 个 区 数据 文件 中 。 一 旦 
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图 64 在 名 字 空 间 中 定位 cs. nctu. edu. tw 
接收 到 DNS 查询 ， 即 给 出 域名 并 请 求 对 应 的 IP 地址 ， 名 字 服 务 器 就 查询 它 的 数据 库 寻 找 答 案 。 如 果 找 
到 相 匹 配 的 答案 就 将 其 回复 给 客户 端 和 否则， 就 在 其 他 命名 服务 器 上 做 进一步 查找 .。 一 台 名 字 服 务 器 
可 以 负责 多 个 区 ， 这 就 意味 着 数据 库 包 括 多 个 区 并 且 有 多 个 区 数据 文件 ， 如 岁 6-5 所 述 。 在 图 6-5 中 ， 
方形 和 椭圆 分 别 代 表 和 名 字 服 务 器 和 区 ， 位 于 中 间 的 名 字 服 务 融 包括 区 A 和 区 B 


从 EE (A) 从 (B) 上 -名 字 服 务 器 
; _ 区 过 移 _ | IC 





























客户 机 







区 B 





图 6-5 主 、 从 名 字 服 务 器 之 间 的 关系 (df: zone 区 数据 文件 ) 
为 了 可 用 性 和 负载 平衡 性 ， 一 个 区 也 许 会 被 多 台 名 字 服 务 器 监控 ， 以 避免 可 能 在 单 台 服 务 器 上 的 
高 请 求 率 引 起 的 中 断 。 为 同一 个 区 服务 的 服务 器 可 以 划分 为 一 台 主 机 和 多 台 从 机 。 一 台 主 名 字 服 务 器 
具有 在 一 个 区 中 删除 或 者 添加 主机 的 权力 ， 而 从 名 字 服 务 带 只 能 通过 一 种 处 理 ( 即 区 传输 ) 从 它们 的 
主 名 字 服 务 器 获取 区 信息 。 在 图 6-5 中 详细 说 明了 区 A 的 主 名 字 服 务 器 是 区 B 的 从 名 字 服 务 器 。 


6.2.3 资源 记录 

一 个 区 数据 文件 由 描述 区 的 DNS 设置 的 多 个 资源 记录 (RR) 组成。 一 个 RR 一般 包含 一 个 五 元 
组 : 所 有 者 (索引 RR 的 域名 ) 、TTL〈 生 存 时 间 ， 解 析 器 可 以 缓存 该 条 RR 的 一 段 有 限时 间 ) 、 类 ( 通 
常 采用 IN， 代 表 互 联网 系统 ) 、RDATA (一 个 可 变 长 度 的 八字 节 字 符 串 用 以 描述 资源 ) 。 通常 有 六 种 类 
型 的 RR 用 于 描述 域名 的 不 同方 面 : 

起 始 授权 机 构 (SOA) : SOA 标志 着 一 个 DNS 区 数据 文件 的 开始 ， 并 确定 了 该 区 的 授权 机 构 。 也 
aa 当 我 们 想 知 道 一 个 区 的 授权 机 构 名 字 服 务 器 时 ， 我 们 发 出 对 SOA 的 查询 。 一 个 例子 如 下 : 

一 步 解 释 “cs. netu edu. tw 域 有 一 个 授权 机 构 名 字 服 务 器 ecsserv cs. nctu. edu. tw” 将 更 县 可 读 性 
羊 适 用 于 其 余 的 RR。 域 名 help. cs. nctu. edu. tw 遵循 授权 机 构 服 务 器 指定 负责 该 区 的 管理 员 的 邮 
如 RFC 1035 中 定义 。 然而 ，help. cs. netu. edutw 将 由 DNS 应 用 程序 自动 地 翻译 成 help @ 
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cssnctu edu. tw。 从 名 字 服 务 器 使 用 序号 来 触发 对 区 数据 文件 的 更 新 ， 仪 泊 从 名 字 服 务 融 的 副本 具有 上 比 
主 名 字 服 务 咒 的 副本 更 小 的 序号 时 才 会 发 生 。 为 此 ， 序 号 通常 设置 为 修改 日 斯。 
cs.nctu.edu.tw. 86400 IN SOA csserv.cs.nctu.edu.tw. 
help.cs.nctu.edu.tw. 


( 
2009112101 ; Serial number 
86400 ; Refresh after 1 day (86400 seconds) 
3600 ; If no response from master, retry after 
1 hour 
1728000 ; If still no update, the data expires 
after 20 days 
86400 ; TTL of RRs if cached in other name servers 
) 


地 址 (A): 这 是 最 重要 和 最 常用 的 RR， 用 于 将 域名 与 IP 地 址 进行 匹配 ， 如 转发 查询 请 求 。 由 于 
多 六 主机 有 多 个 网 络 接口 卡 ， 所 以 就 有 多 个 IP 地址 ， 针 对 同一 个 域名 允许 有 多 个 ARR， 多 穴 主 机 的 一 
个 例子 如 下 : 
linux.cs.nctu.edu.tw 86400 IN A 140.113.168.127 
86400 IN ‘A I40.113.207.127 


它 意 味 着 对 linux. cs. nctu. edu. tw 的 查询 将 返回 两 个 下 地址， 

规范 名 (CNAME): CNMAME 使 用 一 个 指向 IP 地 址 规范 域名 的 域名 创建 一 个 别名 ， 这 对 于 从 一 个 
IP 地 址 运行 多 个 服务 特别 有 用 。 在 下 面 的 例子 中 ，cache es.netu. edutw 最 初 在 IP 地 址 
140. 113. 166. 122 上 用 于 Web 缓存 服务 并 且 因 此 它 是 这 个 IP 地 址 的 规范 名 . 然而， 同时 ， 它 也 充当 
Web 服务 器 ， 因 此 就 为 www. cs. nctu edu. tw 创建 了 一 个 别名 : 


www.cs.nctu.edu.tw. 86400 IN CNAME cache.cs.nctu.edu.tw. 
cache.cs.nctu.edu.tw. 86400 IN A 140.113.166.122 


这 样 ， 当 查询 别名 时 ， 名 字 服 务 融 首先 查找 相应 的 规范 名 ， 然 后 查找 规范 名 的 PP 地址， 最 后 返回 
这 两 个 结果 

指针 (PTR) : 与 A RR 相反 ，PTR RR 从 相应 的 IP 地 址 指向 域名 ”所 谓 的 逆向 查 均 ， 查 询 IP 地 址 
的 域名 ， 就 采用 此 方案 。 例 如 ，RR 提供 

10.23.113.140.in-addr.arpa. 86400 IN PTR laser0.cs.nctu.edu.tw. 
从 下 地 址 140.113.23.10 旬 域 名 laser0. es netu edu en 的 逆向 映射 ， 这 里 将 IP 地址 表示 为 用 于 道 向 
DNS 在 找 在 in-addr. arpa 域 的 一 个 子 域 。 注意，PTR 将 IP 地 址 存储 为 逆向 学 节 顺 序 ， 因 为 域名 出 左 到 
丰 变 得 不 那么 明确 了 。 换 名 话说 ， 症 地 址 140. 113. 23. 10 以 域名 10. 23. 113. 140. in-addr. arpa 存储 指向 
它 的 规范 名 

名 字 服 务 器 (NS) : 一 个 NS RR 标志 着 一 个 DNS 区 数据 文件 的 开始 ， 并 提供 该 区 名 字 服 务 涡 的 域 
名 。 它 通常 出 现在 SOA RR 的 后 面 以 便 为 6.2.4 节 中 描述 的 请 求 转交 提供 额外 的 名 字 服 务 器 。 例 如 ， 
在 NCTU 的 名 字 服 务 带 mDNS. nctu. edu. tw 中 的 CS 名 字 服 务 器 的 一 个 NS 表 项 可 以 是 : 

cs.nctu.edu.tw. 86400 IN NS csserv.cs.nctu.edu.tw. 
这 使 域名 服务 融 将 对 在 es. netu. edu. cn 域 中 的 主机 查询 转交 给 授权 主机 cisserv. cs. nctu. edu. tw。 注 意 ， 
在 SOA RR 中 定义 的 名 字 服 务 顺 总 有 一 个 NS RR， 并 且 对 应 的 一 个 A 类 型 RR 必须 在 区 数据 文件 中 针 
对 一 个 in-zone 名 字 服 务 器 附带 有 NS RR 

邮件 交换 (MX): MX RR 为 域名 公布 邮件 服务 天 的 名 字 - 这 是 用 来 实现 邮件 转发 的 。 例如， 一 个 
邮件 发 送 者 试图 将 电子 邮件 发 至 help@ cs. nectu. edu. tw， 可 能 会 请 求 名 字 服 务 器 有 关 es. nctu. edu. tw 的 
邮寄 信息 。 利 用 以 下 MX RR， 

cs.nctu.edu.tw 86400 IN MX 0 mail.cs.nctu.edu.tw. 

cs.nctu.edu.tw 86400 IN MX 10 maill.cs.nctu.edu.tw. 


发 件 者 知道 将 电子 邮件 转发 给 邮件 交换 器 mail es. netu. edu. tw。 当 存在 多 个 邮件 交换 器 时 就 旧 从 中 选 
择 一 个 ， 在 邮件 交换 器 字段 之 前 的 数字 代表 其 优先 值 。 在 这 个 例子 中 ， 邮 件 发 送 者 将 选择 第 一 个 ， 它 
有 一 个 更 好 (更 低 ) 的 邮件 转发 的 优先 值 。 第 三 个 一 般 不 会 被 选中 除非 第 一 个 停机 
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6. 2.4 名 字 解 析 

DNS 的 男 一 个 重要 组 成 部 分 是 解析 涡 程 序 。 它 通常 由 程序 库 组 成 ， 应 用 程序 (如 Web 浏览 器 ) 使 
用 它 将 URL 的 ASCII 字符 串 转 换 为 有 效 的 IP 地址 。 解 析 占 给 既 监 听 UDP 又 监听 TCP 端口 53 的 域名 服 
务 器 生成 DNS 查询 ， 并 解释 来 白 服 务 吕 的 响应 。 域名 解析 包括 查询 解析 器 和 查询 过 的 本 地 名 字 服 务 
器 ， 有 时 还 包括 其 他 区 的 名 字 服 务 虎 

多 次 迭代 查询 

在 最 好 的 情况 下 ， 如 果 服 务 器 在 其 数据 库 中 找到 答案 则 本 地 名 字 服 务 器 将 马上 回答 来 自 解析 器 的 
查询 ， 否则， 服务 需 将 进行 多 次 选 代 查询 ， 而 不 是 简单 地 将 未 回答 的 查询 退还 给 解析 器 。 如 图 6-6 所 
述 ， 当 本 地 和 名字 服务 带 收 到 一 个 对 “www. dti gov 上 k” 的 查询 后 ， 它 就 开始 多 次 迭代 查询 ， 通 过 询问 
根 域 中 的 域名 服务 器 而 不 仅仅 是 上 一 级 域名 服务 器 ， 因 为 它们 可 能 不 知道 答案 或 者 向 谁 转发 。 如 果 没 
有 找到 答案 ， 根 服务 融 将 转交 给 域名 层次 结构 中 离 目的 主机 最 近 的 名 字 服 务 器 。 也 可 能 有 多 个 适 于 转 
交 的 候选 者 ， 但 以 循环 方式 选择 其 中 一 个 - 然后 本 地 服务 器 重复 查询 转交 的 名 字 服 务 器 ， 如 “uk” 名 
字 服 务 需 ， 它 可 能 再 次 应 答 以 再 一 次 转交 ， 如 “gov. uk” 名 字 服 务 器 等 ， 直 到 查询 到 达 目 的 地 主机 所 
在 域 的 名 字 服 务 器 。 在 我 们 的 例子 中 ， 查 询 终止 于 “dti. gov. uk” 名 字 服 务 器 。 该 名 字 服 务 器 将 主机 IP 




















地 址 提供 给 本 地 名 字 服 务 器 ， 然 后 它 将 答案 转发 给 解析 器 ， 完 成 名 称 解 析 过 程 
1 
一 根 名 字 服 务 器 
jp 
查询 了 
Www dt gov uk a pe 
一 到 ’ 
Wi = | 
(解析 器 ) | 
服务 器 ~、 和 
Re a 
Ww 光志 Se 一 
NS i £ te 
~ ~ $: ne 
Wwww.dti.gov .uk. SM IN A 164.30.253.20 SAN vg Ns 站 向 
www.dtigov uk. SM IN A 1064.30.164.20 ne ~ “gov.uk™ 
SR 9 | “名 字 服 务 器 
SR 
SS : 
SN xs Tc 
SS Tc ss 
3 
8 “dti.gov.uk™ 阐 门 
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其 他 候选 名 字 服 务 器 
图 6-6 对 www. dti. gov. uk 的 多 次 迭代 解析 

值得 注意 的 是 ， 这 里 的 解析 严 经 历 一 种 递归 查询 ， 而 能 递归 的 本 地 名 字 服 务 带 保持 状态 以 便 通 过 
多 次 迭代 查询 解析 递归 查询 。 如 果 本 地 名 字 服 务 融 不 能 北 归 ， 解析 器 就 需要 发 送 授 代 查 询 到 其 他 已 知 
的 名 字 服 务 器 。 幸运 的 是 ,大 多 数 本 地 名 字 服 务 器 都 能 够 递归 。 

让 我 们 以 北向 DNS 查找 作为 男 外 一 个 例子 来 说 明 ， 弟 归 查 询 对 应 于 IP 地址 164. 36. 164. 20 的 域名 
是 通过 多 次 迭代 查询 来 解析 的 。 也 就 是 说 ， 我 们 查找 RR: 

20.164.36.164.in-addr.arpa. 86400 IN PTR www.dti.gov.uk. 
当 本 地 名 字 服 务 需 不 能 在 它 的 数据 库 中 找到 对 应 的 RR 时 ， 它 就 请 求 . arpa 域 的 权威 根 名 字 服 务 器 。 根 
名 字 服 务 器 ， 昌 然 它 也 可 能 没有 所 需 的 RR， 但 它 可 能 会 提供 一 些 RR 的 转交 信息 ， 例 如 : 

164.in-addr.arpa. 86400 IN NS ARROWROOT.ARIN.NET. 

ARROWROOT.ARIN.NET. 86400 IN A 198.133.199.110 


其 中 声明 164. * . * . * 域 是 在 中 地 址 为 198. 133. 199. 110 的 名 字 服 务 器 ARROWROOT. ARIN. NET 管理 
下 ， 它 可 以 根据 本 地 RR 再 次 将 查询 转交 给 更 好 的 名 字 服 务 器 : 
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36.164.in-addr.arpa. 86400 IN NS NS2.JA.NET. 
NS2.JA.NET. 86400 IN A T9363 105s17 


最 后 ， 所 需 的 RR 在 名 字 服 务 右 NS2. JA. NET 上 找到。 

正如 我 们 从 这 两 个 例子 中 可 以 看 到 ， 除 了 本 地 名 字 服 务 器 外 ， 所 有 和 名字 服 务 带 ， 当 它们 没有 所 证 
旨 的 RR 时 ， 它 们 只 提供 转交 ， 而 不 是 以 本 地 名字 服务 器 的 名 义 发 出 查询 。 后 一 种 方法 对 于 非 林 地 名 
字 服 务 器 保持 处 理 中 所 有 查询 的 状态 是 不 可 扩展 的 。 因 此， 只 有 能 够 递归 的 本 地 和 名字 服 务 兰 是 有 状态 
的 ， 而 其 他 非 本 地 名字 服务 器 都 运行 在 无 状态 模式 下 。 


历史 演变 : 遍布 世界 的 根 DNS 服务 器 

在 层次 化 域名 空间 中 , 根 DNS 服务 器 回答 对 DNS 根 区 的 查询 。 根 区 是 指 顶 级 域名 (TLD)， 是 互 
联网 的 最 高 等 级 域名 ， 包 括 通用 顶级 域 (gTLD) (如 .com) 和 国家 代码 顶级 域 (ceTLD) 如 .en。 到 
了 2010 年 年 初 ， 在 根 区 中 有 .20 个 通用 顶级 域名 (TLD) 和 248 个 ceTLD， 根 DNS 服务 器 对 于 互联 网 
非常 重要 ， 因 为 它们 处 在 将 域名 翻译 成 全 球 上 P 地 址 的 一 线 

共有 13 个 根 域 名 服务 器 (参见 http: /Awww. root-servers. org/) 实现 根 DNS 区 。13 个 根 域名 服务 
器 中 的 每 一 个 用 从 A ~M 的 字母 标识 符 标 记 。 虽 然 仅 使 用 了 13 个 字母 的 标识 符 ， 但 每 个 标识 符 的 运营 
商 可 以 使 用 完 余 的 物理 服务 器 机 器 以 便 提 供 高 性 能 DNS 查找 和 更 高 的 容错 性 ， 表 64 显示 了 根 DNS 服 
务 器 ， 在 第 二 列 中 显示 代理 服务 器 的 下地 址 ， 在 名 字 解 析 过 程 中 ， 不 能 由 本 地 域名 服务 器 回答 的 查询 
首先 转发 到 13 个 预先 配置 的 代理 根 域名 服务 器 ， 以 随机 或 循环 的 方式 。 代理 服务 器 然后 将 本 地 域名 服 
务 器 重 定向 到 其 宛 余 服务 器 之 一 ， 然 后 用 下 一 级 权威 域名 服务 器 的 地 址 应 答 ,， 在 表 64 中 ， 全 球 和 本 
地 网 站 之 间 的 区 别 在 于 负载 均衡 考虑 的 是 全 球 的 还 是 局 部 的 


表 6-4 根 DNS 服务 器 









































字母 IP 地 址 运 营 商 地 理 位 置 站 ”点 
美国 ， 加 利 福 尼 亚 州 ， 洛 杉 仙 ; 
IPv4: 198. 41. 0.4 VeriSign ( 威 瑞 信 ) | 美国 ， 纽 约 州 ， 纽约; 全 球 ， 4 
1Pv6: 2001: 503: BA3E: :2: 30 公司 美国 ， 加 利 福 尼 亚 州 ， 阿 尔 托 ; i 
美国 ， 弗 吉 尼 亚 州 ， 阿 什 们 恩 
IPv4: 192. 228. 79. 201 | 美国 ， 加 利 福 尼 亚 州 
vd: 2. 226. :2 到， a NL. 
B 有 加州 大 学 信息 地 : 1 
1pv6: 2001: 478: 65: : 53 ea 乌 瑞 娜 戴尔 瑞 
科 学 :r F 心 
美国 ， 上 弗吉尼亚 州 ， 赫 恩 登 ; 
美国 ， 加 利 福 尼 亚 州 ， 洛 杉 矶 ; 
i Cogent rm 天 四 ， 纽 约 州 本 纽约 ; 术 地 : 6 
lions 科 进 通信 公 互 美国 ， 伊 利 诺 仇 州 ， 芝 加 哥 ; 
德国 ， 法 兰 克 福 ; 
西班牙 , 马德里 ”| 
D IPv4: 128. 8. 10. 90 马 蛙 兰 大 学 美国 ， 马 里 兰州 ， 伯 克 分 校 全 球 : 1 
E IPv4: 192. 203. 230. 10 NAS 艾 姆 斯 研究 中 心 | 美国， 加 利 福 尼 亚 州 ， 臣 延 维 万 全 球 ; 1 
RR， 美国 加 利 福 尼 亚 州 帕 歇 奥 图 ; 
IPv4: 192. 5. 5. 241 互联 网 系统 协会 ， Ps 全 球 : 2 
F Oe 公司 美国 加 利 福 尼 亚 州 旧金山 ; 术 邓 ,好 
yO: 2 py aa ~ 
本 地 : 47 世界 各 地 
美国 俄亥俄 州 哥 伦 布 ; 
美国 得 克 萨 斯 州 圣安东尼奥 ; 
= 国 夏 威 南 州 村 省 上 
C IPv4: 192. 112. 36. 4 美国 国防 部 网 络 信息 关 国 时 大 织 州 从 首 册 5 本 地 : 6 
是 必 日 本 ， 福生 ; 
德国 斯 图 格 特 - 瓦 赫 根 ; 
意大利 ， 那 不惑 斯 
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( 续 ) 
字母 IP 地 址 运 营 商 地 理 位 置 站 点 
IPv4: 128. 63. 2. 53 美国 陆军 研究 实 A 
= 上 国 蕊 里 兰州 册 i 式 验 纪 个 球 
IPv6: 2001: 500: 1: : 803f 235 验 室 美国 马里 兰州 阿 们 本 试验 声 球 ; 1 
I IPv4: 192. 36. 148. 17 奥 托 诺 米 嘉 公 司 34 忆 界 范 轩 | 本地， 34 
全 球 : 55 世界 范围 ; 
本 地 : 美国 弗吉尼亚 州 杜 勒 斯 ; 
美国 华盛顿 州 西雅图 ; 
| IPv4: 192. 58. 128. 30 VeriSign ( 威 瑞 信 ) | 美国 伊利诺伊 州 ， 芝 加 冯 ; 全 球 : 55 
IPv6: 2001: 503: C27: :2: 30 公司 美国 ， 加 利 福 尼 亚 州 ， 址 延 维 万 ; 林地 : 5 
中 国 ， 北 京 : 
得 尼 业 ， 内 网 毕 ; 
埃及 ， 开 风 
全 球 : 英国 ， 伦 敦 ; 
苘 兰 ， 阿 姆 斯 特 丹 ; 
1Pv4: 193. 0. 14. 129 RIPE NCC 欧洲 IP | 德国 法兰克福; 日本， 东京 ; 全 球 : 6 
1Pv6: 2001: 7fd: :1 网 络 资源 协调 中 心 美国 ， 佛 岁 里 达州 ,迈阿密 ; 本 了 地: 12 
印度 ， 德 里 ; 
本 地 : 12 世界 范 有 
TPv6:2001: 500: 3: :42 省 区 地 址 分 配 国 ， 及 达州， 迈阿密 ; 公 球 : 了 
机 构 捷克 共和 国 ， 布 拉 格 
下 pi 个 语 点 
IPv4: 202. 12. 27. 33 人 wal 金 球 ; 5 
v4: ZU2. 12. i 和 交 国 、 A ; tA -~ 
M 布 式 软 林 牛 储 成 培 
IPv6: 2001: de3: :35 集成 环境 美国 ， 加 利 福 尼 亚 州 ， 旧 金山 ; 本 地; 1 
. 本 地 : 韩国 ， 首 尔 
协议 消息 格式 


在 DNS 协议 中 使 用 的 消息 包含 以 下 5 个 部 分 ， 如 图 6-7 所 示 。 


〗 总 3 4 5 洽 7 8 9 10 111 12 13 14 15 位 








.| 操作 码 村 CC | | | 预 留 的 


QDCOUNT 头 部 
ANCOUNT 
NSCOUNT 
ARCOUNT 
1 问题 | 
答案 4 
权威 的 
































f 附加 的 f 











图 6-7 DNS 消息 的 内 部 构造 
头 部 部 分 : 这 人 包括 有 关 查 询 的 控制 信息 。 该 ID 是 标识 消息 的 唯一 数字 ， 并 用 来 匹配 未 确认 查询 的 
应 答 。 第 二 行 包 含 一 些 标志 ， 表 明 类 型 在 中 指定 的 查询 或 响应 ) 、 操 作 (在 OPCODE 中 指定 的 
止 问 或 反 向 查询 ) 、 所 震 要 的 (RD) 或 可 以 提供 的 (RA) 递归 查询 、 消 息 的 错误 代码 (RCODE) 北 
化 字段 给 出 了 在 头 部 之 后 部 分 的 表 项 编号 
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问题 部 分 : 这 是 用 来 携带 查询 中 的 问题 。 头 部 部 分 的 QDCOUNT 指定 在 本 部 分 中 的 表 项 数 (通常 
1 

答案 、 权 威 和 附加 部 分 : 它们 中 的 每 一 个 都 包含 很 多 RR， 所 有 者 信息 以 ASCII 格式 存储 ， 具 有 可 
变 的 长 度 ， 在 头 部 部 分 中 的 ANCOUNT、NSCOUNT 和 ARCOUNT 中 指定 RR 的 计数 。 前 两 个 部 分 告诉 
查询 的 答案 和 相应 的 权威 域名 服务 器 ， 而 附加 部 分 提供 与 查询 有 关 的 有 用 信息 ,但 并 不 是 确切 的 答案 
例如 ， 如 果 在 权威 部 分 有 一 个 如 “netu. edu. tw. 259200 IN NS ns. nctu. edu. tw. ”的 表 项 ， 那 么 很 可 能 在 
附加 部 分 有 一 个 如 “ns netu. edu. tw. 259200 IN A 140. 113. 250. 135” 的 表 项 以 便 提供 权威 域名 服务 器 
的 地 址 RR。 


开源 实现 6.1: BIND 

概述 

伯克利 互联 网 域名 (BIND) 由 互联 网 软件 协会 (ISC) 维护 ， 是 为 BSD 派生 类 操作 系统 实现 的 一 
种 域名 服务 器 系统 .BIND 由 一 个 多 线程 ( 因 操 作 系统 而 定 ) 后 台 守 护 进程 named 和 一 个 解析 器 库 构 
成 。 解 析 器 是 系统 库 中 提供 接口 的 一 套 例 程 ， 通 过 它 应 用 程序 就 能 够 访问 域名 服务 .还 包括 一 些 高 级 
的 功能 和 安全 附件 也 包含 在 BIND 中 ， BIND 是 目前 为 互联 网 提供 DNS 服务 的 最 常见 软件 。 它 可 以 运行 
在 大 多 数 类 UNIX 操作 系统 上 ， 和 包括 FreeBSD 和 Linux 

我 们 可 以 将 BIND 概括 为 DNS 的 并 发 多 线程 实现 。BIND 在 端口 53 上 既 支 持 面 向 连接 服务 也 支持 
无 连接 服务 ， 但 后 者 经 常用 于 快速 响应 ， 对 解析 器 的 默认 查询 解析 是 递归 的 ;但 由 多 个 迭代 查询 进行 
前 面 进 过 ， 除 了 本 地 DNS 服务 器 外 ，DNS 服务 器 保持 无 状态 

框图 

默认 情况 下 ，nameda 守护 进程 作为 根 运行 ， 出 于 安全 考虑 ， 通 过 chroot () 系统 调用 ( 称 为 “最 
少 特 权 ” 机 制 ) ame 机 可 和 生 为 当 给 闻 etd 它 监 听 对 TCP 或 UDP 端口 53 的 请 求 。 按 
照 惯例 ， 出 于 性 能 考虑 我 们 选择 UDP 传输 普通 消息 ,但 是 必须 使 用 TCP 进行 区 传输 以 避免 可 能 丢失 区 
数据 文件 

有 了 多 线程 的 支持 ， 就 能 够 创建 三 个 主管 理 器 线程 : 任务 管理 器 、 定 时 器 管理 器 和 套 接 字 
如 图 6-8 所 示 vere 
任务 能 够 运行 ， 套 接 字 管 理 器 向 任务 1 (Task1) 发 送 一 个 1/0 完成 事件 。 

CPUI! CPU2 CPU3 CPU4 
rT 

工作 者 线程 工作 者 线程 工作 者 线程 工作 者 线程 
































本 
事件 队列 
© O O 
oe | OO 2 人 (> € 
任务 1 任务 2 任务 3 任务 VY 任务 N+1 任务 N+2 








任务 管理 器 





图 6-8 BIND 中 的 任务 管理 器 、 定 时 器 管理 器 和 套 接 字 管 理 器 之 间 的 关系 
由 于 BIND 9 支持 多 处 理 器 平台 ， 所 以 每 个 CPU 关联 一 个 由 任务 管理 器 创建 的 工作 者 线程 以 便 处 
RE AREA 解析 请 求 、 定 时 器 中 断 )。 当 任务 的 事 
件 队 列 为 非 空 时 ， 这 个 任务 就 是 可 运行 的 。 当 任务 管理 器 给 工作 者 线程 分 配 一 个 可 运行 的 任务 时 ， 工 
作者 线程 通过 处 理 任务 事件 队列 中 的 事件 来 执行 任务 
任务 附带 定时 器 是 出 于 各 种 目的 的 ， 如 客户 端 请 求 超时 、 请 求 调度 和 缓存 失效 .定时 器 管理 器 
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用 于 建立 和 调整 定时 器 ， 它 们 本 身 就 是 事件 的 来 源 。 套 接 字 管 理 器 提供 TCP 和 UDP 套 接 字 ， 它 们 也 
是 事件 的 来 源 ， 当 网 络 LO 完成 时 ， 就 将 套 接 字 的 一 个 完成 事件 发 送 给 请 求 /0 服务 的 任务 事件 
队列 

创建 许多 其 他 的 子 管理 器 以 支持 刚刚 描述 过 的 管理 器 一 一 例如 ， 用 于 区 传输 的 区 管理 器 、 用 于 处 
理 传 入 的 请 求 并 产生 相应 答复 的 客户 端 管理 器 -。 

数据 结构 

BIND 的 数据 库 中 存储 着 基于 view 数据 结构 的 区 信息 ， 它 具有 一 组 区 。 它 将 用 户 分 为 具有 访问 
DNS 服务 器 不 同 权 限 的 用 户 组 ， 换 句 话说， 一 个 用 户 只 允许 访问 授权 给 他 查看 的 view 

利用 view 来 划分 用 户 的 一 个 实际 例子 就 是 所 谓 的 分 离 DNS。 企 业 或 服务 提供 商 通常 包含 两 种 主 
机 : 首 通 主机 和 服务 器 。 由 于 服务 器 的 DNS 信息 需要 向 外 界 发 布 ， 所 以 在 一 定 程 度 上 ， 企 业 应 该 允 
许 外 部 用 户 查询 访问 其 某 些 域名 服务 器 。 然 而， 这 样 一 来 企业 的 网 络 拓扑 可 能 因此 暴露 给 外 面世 界 ， 
如 果 外 部 用 户 可 以 查询 在 其 域 中 的 其 他 主机 。 这 可 以 通过 分 离 DNS 来 解决 ， 其 中 有 两 种 类 型 ， 即 外 
部 和 内 部 DNS 服务 器 。 前 者 为 外 部 查询 提供 服务 器 信息 ， 而 后 者 服务 于 内 部 主机 。 虽 然 这 个 方案 确 
实 解决 了 私人 信息 暴露 的 潜在 风险 ， 但 使 用 人 额外 的 DNS 服务 器 会 造成 额外 的 财政 支出 。 幸 运 的 是 ， 
在 view 结构 的 帮助 下 ， 通 过 将 用 户 分 成 内 部 组 和 外 部 组 ， 只 需要 一 台 服 务 器 就 能 够 支持 这 种 分 
离 DNS 。 

图 6-9 显示 了 named 使 用 的 数据 结构 。 如 果 在 配置 文件 中 没有 显 式 的 view 声明 语句 ， 那 么 匹配 
任何 用 户 的 默认 view 就 由 所 有 区 数据 文件 生成 。 当 创建 了 两 个 以 上 的 view 时 ， 它 们 就 合并 成 一 张 链 
表 。 根据 其 源 地 址 和 view 的 访问 控制 列表 ， 服务器 利用 view 匹配 进入 的 查询 。 之后， 选择 第 一 个 匹 
配 的 




































































视图 表 
L 视图 1 视图 | … 一 | 视图 Y 上 = NULL 
i 
zone table zone table zone table 
| 
区 1 eo 区 3 
区 的 x 二 
红 黑 桂 [mw | | | | Es | 
区 N RRI1 
区 4 RR 的 红 黑 树 Rl 
图 6-9 named 内 部 的 数据 结构 
算法 实现 
在 view 中 是 组 织 成 红 黑 树 (RBT) 的 权威 区 。RBT 是 一 种 避免 最 坏 情 况 搜索 的 平衡 树 ， 但 它 也 


提供 了 一 个 相当 良好 的 搜索 时 间 log (N)， 其 中 六 表示 树 中 的 节点 数量 。 在 区 数据 文件 中 的 RR 也 作为 
RBT 实现 以 便利 用 区 现 有 的 代码 和 设备 。 在 这 个 阶段 ， 对 请 求 的 RR 选择 最 佳 区 并 在 该 区 的 RBT 中 继 
续 进 行 匹配 过 程 直到 找到 需要 的 RR 为 止 。 如 果 没 有 找到 匹配 RR， 服务 器 求助 于 外 部 域名 服务 器 为 客 
户 端 执行 查询 过 程 ， 

Dig 一 一 一 个 小 解析 器 程序 

除了 BIND 套件 中 的 named 外 ,还 有 一 个 强大 的 解析 工具 ， 称 为 域 信息 搜索 器 (dig)。 如 图 6-10 
所 示 ， 它 执行 DNS 查找 ,与 另 一 种 流行 的 工具 ns-lookup 相 比 ， 它 能 够 显示 被 查询 域名 服务 器 的 丰富 
信息 .除了 简单 的 查询 外 ， 用 户 甚 至 可 以 用 带 有 “+trace” 选 项 的 daig， 沿 迭代 路 径 跟 踪 被 查询 的 
域名 服务 器 
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; <<>> DiG 9.2.0 <<>> Www.nctu.edu.tw 

;; global options: printcmd 

;; Got answer: 

;? -~>>HEADER<<- Opcode: QUERY, status: NOERROR, id: 26027 

;; flags: qraa rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 3, ADDITIONAL: 3 


i; QUESTION SECTION: 
;www.nctu.edu.tw. IN A 


;; ANSWER SECTION: 
www.nctu.edu.tw. 259200 IN A T4013 :250..5 


ir AUTHORITY SECTION: 


nctu.edu.tw. 259200 IN NS ns.nctu.edu.tw. 
nctu.edu.tw. 259200 IN NS ns2.nctu.edu.tw. 
nctu.edu.tw. 259200 IN NS ns3.nctu.edu.tw. 


;; ADDITIONAL SECTION: 
ns.nctu.edu.tw. 259200 IN A 140.113.250.135 
ns2.nctu.edu.tw. 259200 IN A 140.113.6.2 


ns3.nctu.edu.tw. 259200 IN A 163.28.64.11 


图 6-10 利用 gig 对 www. nctu. edu. tw 进行 查询 的 例子 











练习 

1 查找 实现 迭代 解析 .* 文件 和 代码 行 

2， 在 一 台 本 地 主机 上 分 别 以 正 向 查询 和 反 向 查询 查找 RR。 
3， 在 一 台 本 地 域名 服务 器 上 便 用 aig 检索 所 有 的 RR 


6.3 电子 邮件 


电子 邮件 、FTP 和 telnet 是 20 世纪 70 年 代 以 来 最 司 ao 然而 ,电子 邮件 (e-mail) 
比 其 他 两 个 更 普及 。 虽 然 即 时 消息 正在 迎头 赶 上 ， 但 电子 邮件 仍然 是 日 常生 活 中 必 不 可 少 的 互联 网 应 
用 。 本 节 首 先 介绍 电子 邮件 发 送 系 统 的 组 件 和 处 理 流 程 。 然 后， 我 们 描述 基本 的 和 高 级 的 电子 邮件 消 
息 格 式 : 互联 网 消息 格式 和 多 用 途 互联 网 邮件 扩展 (MIME)。 接 下 来 我 们 说 明 用 于 发 送 和 接收 电子 邮 
件 的 协议 ， 简单 邮件 传输 办 议 (SMTP); 从 电子 邮箱 中 检索 电子 邮件 的 协议 ， 邮 局 协议 (POP) 和 互 
联网 消息 访问 协议 (IMAP)。 最 后 ， 我 们 将 amail 作为 电子 邮件 开源 实现 的 一 个 例子 





























6.3.1 简介 


如 今 的 电子 邮件 服务 可 以 追溯 到 早期 ARPANET 阶段 首次 在 1973 年 (RFC 561) 提出 的 电子 邮 
件 的 编码 标准 。 在 20 世纪 70 年 代 初 ,电子 邮 件 的 发 送 与 如 今 互 联网 上 的 电子 邮件 发 送 韭 常 相似 
在 20 世纪 80 年 代 初 的 进一步 演化 奠定 了 日 前 电子 邮件 服务 的 基础 ， 
电子 邮件 是 一 种 通过 计算 机 网 络 将 邮件 从 一 个 用 户 发 送 到 另 一 个 用 户 的 方法 。 传统 上 上 ， 一 封 全 让 
发 作 人 书写 ， 投 入 到 信箱 中 ， 和 暂 存 在 邮局 ， 然 后 投递 到 收 件 人 的 邮箱 中 ， 最 后 收 作 上 和 人 从 其 邮箱 检索 号 
发 送 、 接 收 和 检索 电子 邮件 的 方式 类 似 于 传统 邮件 的 传递 过 程 。 发 件 人 利用 计算 机 编写 电子 村， 
将 消息 发 送 到 邮件 服务 内 ， 后 ， 邮 件 服 务 需 将 邮件 传递 到 在 目的 邮件 服务 句 上 上 ri 
最 后 收 件 人 从 他 的 邮箱 中 利用 账户 和 密码 信息 检索 消息 。 这样， 电子 邮件 可 以 在 几 秒 内 传送 给 任何 收 
件 人 ， 而 不 是 像 通过 普 es， 

互联 网 邮件 寻 址 

名 像 信封 上 的 姓名 和 地 址 一 样 ， 为 了 传输 目的 需要 一 种 机 制 来 表示 电子 邮件 的 发 件 和 人 和 收 件 人 信 
息 。 通过 他 自己 的 电子 邮件 地 址 ， 可 以 到 达 每 个 电子 邮件 用 户 ， 格 式 定义 如 下 

user@{host. Jjnetwork. 

电子 邮件 地 址 由 3 部 分 组 成 。 第 一 部 分 和 第 三 部 分 分 别 标 识 收 件 人 的 用 户 名 和 邮件 eh 在 第 

-部 分 和 第 二 部 分 之 问 总 有 一 个 @ 符号 分 陋 ， 局 味 着 “该 用 户 所 在 的 邮件 服务 器 ,第 三 部 分 告诉 网 
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络 或 域 ， 邮 件 服 务 器 所 在 的 位 置 。 请 注意 ,为 了 简单 ， 第 二 部 分 经 常 被 省 略 ， 因 为 域 的 邮件 服务 需 可 
以 从 DNS 的 邮件 交换 器 (MX) 资源 记录 中 查询 ， 如 6. 2 节 中 所 述 

互联 网 邮件 系统 的 组 件 

接 下 来 的 问题 是 哪些 组 件 构成 了 电子 邮件 系统 。 电 子 邮 件 系统 由 4 个 关键 的 逻辑 元 素 组 成 : 邮件 用 
户 代 理 (MUA) 、 邮 件 传输 代理 (MTA) 、 邮 件 投递 代理 (MDA) 和 邮件 检索 代理 (MRA) ， 如 图 6-11 
所 示 。 下面 简要 介绍 了 它们 









发 件 人 机 器 本 地 邮件 服务 器 远程 邮件 服务 器 。 poyp 收 件 人 机 帝 
| 很 可 可 能 共 


多 个 MTA 中 继 


图 6-11 电子 邮件 系统 的 迎 辑 元 素 

邮件 用 户 代 理 

邮件 用 户 代理 (MUA) 是 电子 邮件 客户 端 程序 ， 通 过 它 用 户 就 可 以 发 送 和 接收 消息 。MUA 经 常 采 
用 一 种 编辑 带 软 件 为 用 户 显 示 和 编辑 消息 。| 除 了 阅读 和 编写 消息 外 ，MUA 也 使 用 户 能 够 添加 电子 邮件 
附件 。 常 用 的 MUA 应 用 程序 包括 在 elm、mutt、 基 于 UNIX 系统 的 pine、 微 软 Windows 系列 的 out- 
look Express 和 Thunderbird。 为 用 户 发 送 和 接收 消息 的 自动 化 脚本 或 程序 也 可 以 认为 是 MUA， 

邮件 传输 代理 和 邮件 投递 代理 

像 ssndmail 、cmail 和 用 于 UNIX 平台 的 postfix 这 样 的 MTA 用 于 通过 简单 邮件 传输 协议 
(SMTP) 从 MUA 接收 消息 并 将 它们 直接 传递 给 远程 邮件 服务 器 上 的 MTA 或 中 间 MTA 以 便于 中 继 。 然 
后 远程 邮件 服务 顺 上 的 MDA 从 接收 的 MTA 获得 消息 并 将 它们 写 入 收 件 人 的 邮箱 以 供 以 后 检索 。 

邮件 检索 代理 

MRA 是 用 来 从 服务 器 的 邮箱 中 获取 信息 ， 然 后 通过 邮局 协议 (POP) 或 互联 网 消息 访问 协议 
(IMAP) 将 它们 传递 到 MUA。 从 网 6-11 中 ， 我 们 可 以 看 到 一 条 消息 ， 它 从 发 件 人 编写 到 最 后 阶段 被 收 
件 人 机 需 获 到， 穿越 了 电子 邮件 系统 的 多 个 组 件 . 这 些 组 件 需 要 利用 某 些 协议 来 传输 消息 。 通 常情 况 
下 ， 发 件 人 MUA 使 用 SMTP 将 邮件 发 送 到 MTA。 因 此，MTA 也 称 为 SMTP 服务 器 。 收 件 人 可 以 通过 
POP 或 IMAP 从 邮件 服务 器 获取 它 的 消息 。 因 此 ,存储 消 息 并 处 理 来 自用 户 检索 请 求 的 邮件 服务 器 称 
为 POP 服务 器 或 IMAP 服务 器 。 我 们 将 在 6. 3. 3 节 详 细 讨 论 这 些 协议 。 


6. 3.2 互联 网 邮件 标准 

电子 邮件 消息 通常 由 两 部 分 组 成 ， 一 部 分 是 特殊 数据 ， 另 一 部 分 是 消息 正文 。 特 殊 数 据 可 以 根据 
所 需要 的 管理 目的 来 划分 。 第 一 类 是 针对 传输 介质 的 信息 ， 如 发 件 人 和 收 件 人 的 地 址 。 因 此 ， 这 种 类 
型 的 数据 称 为 信封 。 它 可 以 通过 MTA 作为 消息 单独 传输 给 收 件 人 。 第 二 类 是 消息 头 部 ， 包 括 主题 和 收 
件 人 的 姓名 ， 后 跟 一 个 空 行 和 消息 正文 。 

电子 邮件 消息 的 基本 标准 定义 在 RFC 822 中 ， 后 来 因 出 现 了 RFC 2822 被 废弃 了 ， 然 后 是 RFC 
5322。RFC 822 规定 了 相当 详细 的 邮件 头 部 格式 ， 邮 件 正 文采 用 ASCI 文本 。 然 而 ， 它 可 以 应 付 各 种 不 
靳 增长 的 需求 ， 如 支持 二 进 制 字 符 、 国 际 字 符 集 和 多 媒体 邮件 扩展 。 因 此 ， 在 RFC 1341 中 提出 了 一 种 
尔 为 多 用 途 互 联网 邮件 扩展 ( MIME) 的 增强 版 本 ， 后 来 因为 出 现 了 能 够 处 理 这 些 新 要 求 的 RFC 2045 
~2049 而 被 废弃 。 在 本 节 的 其 余部 分 中 ,我们 将 介绍 这 两 种 标准 。 
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RFC 822: 互联 网 消息 格式 
RFC 822 规定 电子 邮件 消息 的 名 法。 在 其 定义 中 ， 一 个 消息 由 信封 消息 内 容 组 成 ， 消 息 内 容 包 括 
消息 尖 和 正文 。 表 6-5 总 结 了 RFC 822 中 定义 的 常用 的 消息 头 部 字段 。 每 个 字段 由 字段 名 、 一 个 冒号 
和 一 个 值 (对 大 多 数字 段 来 讲 ) 组 成 这些 字段 可 以 根据 其 目的 分 为 不 同 的 类 型 。 
表 6-5 常用 消息 头 部 字段 























类 型 字段 描述 
出 | prom: 发 送 消息 的 人 
Riso ep ye 提供 一 种 通用 的 机 制 以 便 指 示 响 应 发 送 到 的 邮箱 
ro 消息 的 主要 收 件 人 
ce 抄 送 给 第 二 个 收 件 人 
ee 密 件 副本 给 接收 消息 的 收 件 人 而 没有 上 其 他 人 ， 包 括 ro: 和 cc: 收 件 
人 ， 查 看 接收 到 邮件 的 其 他 人 
i | 将 该 字段 的 每 一 个 副本 添加 到 中 继 该 消息 的 每 “个 传输 服务 





Return-Path: 


由 将 该 消息 发 送 给 其 收 件 人 的 最 终 传输 系统 来 添加 





Reference 


Message-ID: 


包含 一 个 唯一 的 由 原始 系统 上 的 邮件 传输 产生 的 标识 符 





In-Reply-To: 


该 消息 回答 的 前 一 封 邮件 








Other Subject: 提供 消息 的 概要 或 者 说 明 消息 的 性 质 
Date Date: 提供 邮件 发 送 的 日 期 和 时 间 





Extension 





x-anything: 





用 于 实现 还 没有 进入 RFC 或 将 来 永远 也 不 会 进入 RFC 的 功能 


Originator 字段 指定 邮件 消息 的 发 件 人 信息 。From: 字段 表明 谁 撰写 和 发 送 消息 。Reply-To: 字 
段 指定 发 件 人 想 要 收 件 人 答复 发 向 的 地 址 。 当 发 件 人 有 多 个 电子 邮件 地 址 时 ， 这 是 很 有 用 的 ， 但 想 要 
接收 来 日 最 常 使 用 邮箱 的 响应 

Receiver 指示 消息 的 收 件 人 。 一 种 常见 的 句法 是 在 任何 两 个 相 邻 的 收 件 人 地 址 之 间 用 一 个 逗号 分 
隔 。To: 字段 给 出 消息 的 主要 的 收 件 人 。cc: 字段 给 出 将 接收 消息 副本 的 收 件 人 地 址 列表 。 事 实 上 ， 
在 消息 发 送 中 的 主 、 次 收 件 人 之 间 没 有 区 别 。 通常 ， 和 希望 To: 字段 中 的 收 件 人 按照 消息 采取 行动 而 
Cc: 收 件 人 只 是 接收 副本 以 供 参考 。Bcc: 字段 包含 一 个 额外 的 收 件 人 地 址 列表 ， 该 地 址 列表 将 收 到 
密 件 副本 。 不 同 的 是 ，Bcc: 收 件 人 对 接收 销 息 的 其 他 用 户 来 说 是 隐藏 的 。 

Trace 提供 消息 处 理 历 史 的 审计 线索 并 指出 返回 邮件 发 件 人 的 路 由 :处 理 消 息 的 每 台 机 器 将 其 机 器 
名 、 消 息 四、 接收 消息 的 日 期 和 时 间 、 来 自 哪 台 机 带 、 使 用 何 种 传输 软件 等 插入 到 Received to: 字 
役 。Return-Path: 字段 由 最 后 发 送 该 消息 的 传输 系统 添加 。 该 字段 将 说 明 如 何 将 响应 路 由 回 消息 源 。 

Message-ID: 字段 包含 原始 系统 上 邮件 传输 系统 生成 的 一 个 唯一 标识 符 。 它 也 说 明了 消息 的 版 
本 。In-Reply-To: 字段 标识 消息 应 答 的 前 一 封 邮件 。subject: 字段 用 几 句 话 描 述 消息 的 内 容 。 
Date: 字段 提供 消息 发 送 的 日 期 和 时 间 。Extension 用 于 实现 尚未 在 标准 中 定义 的 附加 功能 。 所 有 用 户 
定义 的 字段 应 该 有 以 符 串 “X-” 开 始 的 名 字 。 

图 6-12 是 消息 头 部 的 例子 ， 说 明 从 in@ cs. netu. edu. tw 向 rhhwang@ exodus. cs. ceu. edu. tw 发 送 主题 
为 “book” 的 消息 。 消 息 由 mail. es. nctu. edu. tw 处 理 ， 由 smailgate. cs. nctu. edu. tw 进行 病毒 扫描 ， 并 
最 终 传递 到 在 exodus. cs. ccu. edu. tw 上 的 邮件 服务 器 

多 用 途 互 联网 邮件 扩展 

多 用 途 互 联网 邮件 扩展 ( MIME) 是 一 种 为 了 增强 传统 互联 网 消息 格式 的 规范 。MIME 使 电子 邮件 
具有 

1) 支持 非 7 位 ASCI 字符 集 的 文本 头 部 和 消息 正文 。 

2) 在 单个 消息 内 传输 多 个 对 象 。 


旺 
SN 
未 
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Return-Path: <ydlin@cs.nctu.edu.fw> 

Delivered-To: rhhwang@exodus.cs.ccu.edu.tw 

Received: from csmailgate.cs.nctu.edu.tw (csmailgate2.cs.nctu.edu.tw [140.113.235.117]) 
by exodus.cs.ccu.edu.tw (Postfix) with ESMTPS id 431B212B0OID 

for <rhhwang@exodus.cs.ccu.edu.tw>; Tue, 23 Jun 2009 00:25:52 +0000 (UTC) 
Received: from mail.cs.nctu.edu.tw (csmail2 [140.113.235.72]) 

by csmailgate.cs.nctu.edu.tw (Postfix) with ESMTP id 119193F65F 

for <rhhwang@exodus.cs.ccu.edu.tw>; Tue, 23 Jun 2009 00:22:57 +0800 (CST) 
Received: from nctuclcc065391 (f$hc76.RAS.NCTU.edu.tw [140.113.5.76]) 

by mail.cs.nctu.edu.tw (Postfix) with ESMTPSA id 0577762148 

for <rhhwang@exodus.cs.ceu.edu.tw>; Tue, 23 Jun 2009 00:22:57 +0800 (CST) 
Message-ID: <6CF49E76B3C6488AAB184E4A82FFDF66Q@nctuclcc065391> 
Reply-To: “Dr Ying-Dar Lin” <ydlin@cs.nctu.edu.tw> 

From: “Dr Ying-Dar Lin” <ydlin@cs.nctu.edu.tw> 

To: <rthhwang@exodus.cs.ccu.edu.tw> 

Subject: book 

Date: Tue, 23 Jun 2009 00:22:59 +0800 

MIME-Version: 1.0 

Content-Type: multipart/alternative; 
boundary=”—=_NextPart_000_04F2_01C9F398.C3392310™ 

X-Priority: 3 

X-MSMail-Priority: Normal 

X-Mailer: Microsoft Outlook Express 6.00.2900.5512 

X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2900.5579 

X-UIDL: mcA“!IAk,!-Xnll:pg”! 


图 6-12 消息 头 部 的 一 个 例子 

3) 二 进 制 或 特定 应 用 的 文件 附件 。 

4) 多 媒体 文件 ， 如 网 像 、 音 频 和 视频 文件 ， 

MIME 定义 了 新 的 头 部 字段 ， 如 表 6-6 所 示 。 虽 然 RFC 822 曾经 是 互联 网 消息 格式 的 唯一 标准 ， 但 
仍然 存在 以 下 情况 ， 即 当 邮 件 处 理 代理 需要 知道 消息 是 否 是 用 新 的 标准 编写 的 。 因 此 ，MIME-Ver- 
sion: 字段 用 来 声明 所 使 用 的 互联 网 消息 格式 。Content-Type: 字段 用 来 描述 消息 正文 中 包含 的 数 
据 ， 这 样 MUA 可 以 挑选 一 种 合适 的 机 制 将 数据 提供 用 户 。 它 通过 给 出 类 型 和 子 类 型 标识 符 并 提供 某 些 
类 型 所 需要 的 参数 来 指定 正文 或 正文 部 分 中 数据 的 性 质 。 在 一 般 情况 下 ， 顶 级 媒体 类 型 声明 数据 的 一 











般 类 型 ， 而 子 类 型 则 为 该 数据 类 型 指定 一 个 特定 的 格式 。Content-Type: 字段 的 句法 是 : 
Content-Type := type W” subtype [“;” parameterl]... 


表 6-6 MIME 头 部 字段 

















字 段 描 述 
MIME-Version: 首 述 MIME 消息 格式 的 版 本 
ContentType: 描述 MIME 内 容 类 型 和 子 类 型 
Se nsfer- Encodi es - 指示 传输 的 编码 方法 
Content-ID: 允许 一 个 信息 正文 指向 另外 一 个 信息 正文 
Content-Description: 对 信息 正文 的 可 能 描述 








有 7 个 预定 义 的 内 容 类 型 ， 其 基本 特征 总 结 在 表 6-7 中 ,文本 (text) 类 型 主要 用 于 发 送 文 字形 式 的 资 
料 ， 多 段 (multipart) 表 示 数 据 的 正文 由 多 个 部 分 组 成 ， 每 个 部 分 有 其 自己 的 数据 类 型 。 消息 类 型 表示 
-种 封装 过 的 消息 。 应 用 (application ) 类 型 表示 不 符合 任何 其 他 类 型 的 数据 ， 如 不 能 由 邮件 应 用 程序 处 
理 、 翻 详 的 二 进 制 数据 或 信息 。 图 像 (immage) 和 音频 (audio) 类 型 分 别 表示 图 像 和 音频 数据 。 视 频 
(video) 类 型 表示 正文 包含 一 个 随时 间 变 化 的 图 像 映像 ， 可 能 带 有 颜色 和 协调 的 声音 。 
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表 6-7 MIME 内 容 类 型 集合 
































类 型 子 类 型 重要 参数 
text plain 、html Charset 
multipart mixed 、alternative 、parallel 、digest Boundary 

En [qd 、 mber 、 total 、 access-type 、 
message RFC 822 、partial 、external-body ' . ue E . | 人 
expiration 、size 、permission 

application | octet-stream 、postscript 、rtt、pdf、msword type 、padding 
image jpg、 gif 、tiff、x-xbitmap 无 
audio basic, wav 无 
video Mpeg 无 

许多 内 容 类 型 是 以 其 自然 的 格式 (如 8 位 字符 或 二 进 制 数据 ) 表示 的 。 这 些 类 型 的 消息 可 通过 各 
种 网 络 发 送 。 然 而 ， 有 些 传输 协议 不 能 传输 这 些 数 据 。 例 如 ，SMTP 将 邮件 消息 限制 为 7 位 US-ASCII 


数据 ， 每 行 不 超过 1000 个 字符 ， 包 括 所 有 的 后 级 CRLF 行 分 隔 符 ， 这 样 ，MIME 编码 具有 非 ASCL 部 
分 的 消息 因 。Content-Transfer-Encoding: 字段 告诉 收 件 人 消息 正文 的 编码 方式 以 及 如 何 将 其 解码 。 
该 字段 可 能 的 值 是 : 

et 它 的 目的 是 指出 那些 与 US-ASCI 字符 集中 可 打印 字符 相对 应 的 字 节 组 成 的 
数据 。 这 里 行 不 超过 76 个 字符 。 在 第 75 个 字符 后 ， 其 余 的 被 截断 并 用 一 个 “= ”标记 作为 转 义 字符 。 

e Base64 编码 : 这 是 对 数据 或 者 使 用 MIME 邮件 程序 的 人 有 意义 的 其 他 文本 。base64 使 用 US-ASCII 字 
We 与 可 打印 字符 引用 编码 一 样 ， 行 不 超过 76 个 字符 。 

。7 位 ; 这 是 默认 值 ， 意思 是 消息 内 容 是 纯 ASCI 文本 。 

。8 位 : 这 ee 

。 二 进 制 : 与 8 位 编码 一 样 ， 但 没有 CRLF 行 边界 。 

。X 编码 : 它 代 表 任 何 非 标准 的 内 容 传 输 编码 ( Content-Transfer-Encoding)。 因 此 ,任何 附 加 值 都 

必须 有 一 个 以 “X-” 开 头 的 名 字 。 

在 构造 一 个 高 级 用 户 代 理 时 ， 可 能 希望 允许 一 个 消息 正文 指向 男 一 个 消息 正文 。 消 息 正文 可 能 根 
据 Content-ID: 字段 相应 地 加 上 标记 ， 此 字段 的 语法 与 RFC 822 中 的 Message-ID: 字段 相同 。Con- 
tent-ID 的 值 应 该 尽 可 能 地 保持 唯一 。Content-Description: 字段 用 于 为 给 定 的 消息 正文 放置 一 些 
描述 性 信息 。 例如， 将 一 个 “image” 消 息 正文 标定 为 “The front cover of the book”( 书 的 封皮 ) 将 非 
党 有 川 ， AL- x 

图 6-13 显示 了 一 个 MIME 消息 的 例子 。 这 张 图 片 使 用 base64 编码 进行 编码 。 


From: ‘Yi-Neng Lin’ <ynlin@cs.nctu.edu.tw> 
To: ydlin@cs.nctu.edu.tw 
Subject: Cover 
MIME-Version: 1.0 
Content-Type: image/ipg; 

name=cover.jpg 
Content-Transfer-Encoding: base64 
Content-Description: The front cover of the book 




















<.....base64 encoded jpg image of cover...> 


图 6-13 一 个 MIME 消息 的 例子 
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6. 3. 3 ”互联 网 邮件 协议 
电子 邮件 系统 依靠 邮件 协议 在 客户 端 和 服务 融 之 间 传 输 消息 。 这 里 我 们 将 介绍 3 种 常用 的 邮件 协 
议 一 一 SMTP、POP3 和 IMAP4。 正如 6.3.1 节 中 所 述 ，SMTP 用 于 从 邮件 客户 端 向 邮件 服务 器 发 送 消 
息 ， 即 从 MUA 到 MTA， 也 在 服务 右 之 间 传 输 消息 ， 即 MTA 到 MTA。POP3 用 于 客户 端 检 索 来 目 服 务 
器 的 消息 ， 即 从 MRA 到 MUA。IMAP4 类 似 于 POP3， 但 它 提供 一 些 额外 的 功能 、， 如 存储 和 人 处理 邮件 服 
务 器 上 的 邮件 。 我 们 接 下 来 将 介绍 这 些 协议 
简单 邮件 传输 协议 
简单 邮件 传输 协议 (Simple Mail Transfer Protocol ，SMTP) 首次 定义 在 RFC 821 中 ， 在 RFC 2821 和 
RFC 5321 出 现 后 被 废除 ， 它 是 一 个 标准 的 主机 到 主机 的 邮件 传输 协议 ， 默 认 使 用 TCP 协议 , 端口 号 为 
25。 监 听 端 口 25 并 使 用 SMTP 协议 的 守护 进程 称 为 SMTP 服务 器 ， 即 MTA。SMTP 服务 天 处 理 从 发 件 
人 或 其 他 邮件 服务 器 发 送 的 邮件 它 接收 输入 连接 ， 然 后 将 消息 发 给 正确 的 收 件 人 或 者 下 一 台 SMTP 
服务 器 。 如 果 一 台 SMTP 服务 天 无 法 向 某 一 个 有 具体 的 地 址 发 送 消息 ， 而 且 错 误 不 是 由 于 永久 性 拒绝 ， 
那么 将 消息 放置 到 消息 队列 中 以 供 稍 后 再 次 传输 ， 发 送 符 试 会 持续 下 去 直到 发 送 成 功 或 者 SMTP 
为 止 ， 放 弃 时 间 一 般 至 少 4~5 天 。 如 果 SMTP 服务 器 放弃 发 送 ， 它 就 返回 一 个 带 有 错误 报告 的 不 可 达 
消息 给 发 送 方 。 
一 个 SMTP 客户 端 (MIA 或 者 MTA) 与 一 个 SMTP 服务 器 (MTA) 建立 一 条 双 辐 传输 信道 之 后 ， 
客户 端 就 可 以 产生 并 回 服务 顺 发 送 SMTP 命令 。 服 务 需 发 送 SMTP 应 答 回 复 客户 端 作为 响应 。 表 6-8 
列 出 了 一 些 重要 的 SMTP 命令 。HELLO 用 于 在 会 话 的 开始 标识 SMTP 客户 端 到 SMTP 服务 器 。MRAIL 
FROM: 通知 SMTP 服务 融 邮 件 发 送 者 是 谁 ， 它 在 指定 每 条 消息 的 收 件 人 之 前 或 者 在 RSET 之 后 使 用 
RCPT TO: 向 邮件 服务 器 声明 谁 发 送 了 消息 。 人 允许 有 多 个 收 件 人 ， 但 每 个 收 件 人 都 必须 在 RCPT TO: 
中 列 出 其 自己 的 邮箱 地 址 ， 该 命令 紧 跟 在 MAIL FROM: 之 后 。DATA 指示 邮件 数据 。 任 何在 DATA 后 
输入 的 内 容 都 将 作为 邮件 的 正文 对 待 ， 并 且 将 发 送 给 收 件 人 。 邮件 数据 将 终止 于 字符 序列 “< CRLF 
>. <CRLF >”， 这 是 一 行 包 含 “.”( 名 点) 的 新 行 后 跟着 男 外 一 行 新 行 。 当 输入 句点 时 ,消息 将 
排队 或 立即 发 送 。RSET 重 置 当前 会 话 的 状态 ， 当 前 事务 的 MAIL FROM: 和 RCPT TO: 都 被 清除 。 最 
后 ， 利 用 QuUIT 关闭 会 话 ， 








表 6-8 重要 的 SMTP 命令 














命 令 描 述 命 令 描 述 
HELO 用 发 送 者 的 域名 问候 接收 者 | DATA 指示 邮件 数据 ， 一 行 中 利用 一 个 “, ” 断 开 
MAIL FROM: 指示 发 送 者 ， 但 也 可 能 会 被 伪造 RSET 重 置 会 话 
RCPT TO: 指示 接收 者 QUIT 关闭 会 总 








当 SMTP 服务 器 接收 来 自 客户 端的 命令 时 ， 服 务 顺 用 3 位 数字 的 代码 响应 ， 指 示 命 令 是 成 功 还 是 
失败 。 表 6-9 总 结 了 响应 代码 。200 或 2xx 响应 意味 着 前 一 个 命令 执行 成 功 。 
表 6-9 SMTP 应 答 











响 应 描述 响 应 描述 
2xx ”| ”接收 并 处 理 命令 | 4 | 关键 系统 或 传输 故障 
普通 流 控 制 SMTP 命令 错误 





学 习 了 SMTP 命令 和 应 答 的 句法 和 语义 后 ， 让 我 们 看 看 在 图 6-14 的 例子 会 话 中 的 服务 器 和 客户 端 
之 间 的 互动 。ynlin 给 ydlin 发 送 了 一 ee 注意 “R” 来 自 接收 服务 器 的 响应 ， 而 “S” 是 发 送 
客户 端的 输入 

邮局 协议 版 本 3 

邮局 协议 版 本 3 (Post Office Protocol version 3 ，POP3) 首次 定义 在 RFC 1081 中 ， 后 来 因为 RFC 
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R: 220 mail.es.nctu.edu.tw Simple Mail Transfer Service Ready 
S: HELO CS.NCTU.EDU.TW 

R: 250 MAIL.CS.NCTU.EDU.TW Hello {140.113.235.72] 

S: MAIL FROM:<ynlin@CS.NCTU.EDU.TW> 

R: 250 OK 

S: RCPT TO:<ydlin@CS.NCTU.EDU.TW> 

R: 250 2.1.5 <ydlin@CS.NCTU.EDU.TW> 

S: DATA 

R: 354 Start mail input; end with <CRLF>.<CRLF> 

S: .mail content... 

S 
R 


: 250 2.6.0 <SK3MoY3AYg00000001@CS.NCTU.EDU.TW> Queued mail for delivery 
S:QUIT 
R: 221 mail.cs.netu.edu.tw Service closing transmission channel 








图 6-14 一 个 SMTP 会 话 
1225 、RFC 1460 、RFC 1725 、RFC 1939 的 出 现 被 废除 ， 它 用 于 用 户 对 邮箱 的 访问 。 监 听 端 口 110 并 使 
用 POP3 的 守护 程序 称 为 POP3 服务 器 。POP3 服务 器 接收 来 自 客户 端的 连接 并 检索 它们 发 送 的 信息 。 
当 客 户 端 和 服务 器 之 间 建 立 一 条 TCP 连接 时 ， 服 务 器 向 客户 端 发 送 一 条 欢迎 信息 ， 然 后 就 能 与 客户 端 
交换 命令 和 应 答 。 

一 个 POP3 会 话 在 其 整个 周期 内 要 经 历 很 多 状态 。 这 些 状 态 包 括 AUTHORIZATION (授权 )、 
TRANSACTION (交易 ) 和 UPDATE (更 新 ) 。 一 旦 客户 端 连接 到 POP3 服务 咒 上 并 且 接 收 来 自 服务 右 的 
一 条 欢迎 信息 ， 那 么 会 话 就 进入 AUTHORIZATION 状态 。 然 后 ,为 了 验证 身份 ， 客 户 端 必须 告诉 POP3 
服务 器 他 的 用 户 名 和 密码 。 当 客户 端 通过 身份 检查 后 ,会话 就 进入 到 TRANSACTION 状态 。 这 时 ， 客 
户 端 可 以 向 服务 器 发 送 命令 并 请 求 服务 天 执行 命令 ， 例 如 ， 列 出 收 件 箱 中 的 邮件 ，。 当 客户 端 发 出 QUIT 
命令 时 ， 会话 进入 UPDATE 状态 。 在 这 个 状态 中 ，POP3 服务 顺 释 放 所 有 在 AUTHORIZATION 状态 中 分 
配给 客户 端的 资源 ， 发 送 “ 再 见 ” 给 客户 端 ， 并 且 最 终 关 闭 和 客户 端 之 间 的 连接 。 

表 6-10 总 结 了 一 些 必要 的 POP3 命令 。 第 三 列 指示 命令 所 属 的 会 话 状 态 。USER 和 PASS 用 于 标志 
在 AUTHORIZATION 状态 的 客户 端 ，sTAT 用 于 从 邮箱 中 获取 邮件 数量 和 邮箱 字 节 大 小 。LIST 用 于 获 
取 一 封 或 多 封 邮件 的 大 小 。 如 果 在 LIST 后 跟 一 封 邮 件 的 名 字 作 为 参数 ， 将 报告 这 封 邮 件 的 信息 。 
RETR 用 于 从 邮箱 查询 获取 邮件 。DELE 标识 邮件 被 删除 ， 未 来 任何 在 POP3 命令 引用 这 种 标记 消息 都 
产生 一 个 错误 。 注 意 标注 删除 的 邮件 实际 上 并 未 被 删除 直到 POP3 会 话 输入 UPDATE 状态 为 止 。NOOP 
代表 无 操作 ， 对 此 POP3 服务 器 除了 做 出 一 个 肯定 应 答 外 不 做 任何 事情 。REST 将 所 有 标注 为 删除 的 邮 
件 重 置 为 未 标注 。 最 后 ，QUIT 将 POP3 会 话 变 成 UPDATE 状态 ， 然 后 再 终止 会 话 。 

表 6-10 最 少 的 POP3 命令 
























































命 令 描 述 会 话 状 态 

USER name 问 服 务 融 标识 用 户 AUTHORT ZATION 

PASS string 输入 用 户 密 但 AUTHORIZATION 

STAT 获取 邮箱 中 邮件 数量 和 字 节 大 小 TRANSACTION 

LIST [msg] 获取 一 个 或 所 有 邮件 的 大 小 TRANSRACTION 

RETR ms9 从 邮箱 中 获取 一 个 邮件 TRANSACTION 

DELE msg 将 msg 标记 成 从 邮箱 中 删除 TRANSACTION 

NOOP 无 操作 TRANSACTION 

RSET 将 所 有 标记 为 删除 的 邮件 重 置 为 无 标记 状态 TRANSACTION 

QUIT 终止 会 话 AUTHORIZATION 、UPDATE 


所 有 POP3 应 答 都 从 一 个 状态 行 开 始 。 状 态 行 包括 一 个 状态 指示 符 和 一 个 关键 词 ， 可 能 后 面 还 跟 
了 额外 的 信息 。 目 前 有 两 种 状态 指示 符 : 肯定 (“+ OK”) 和 否定 (“ -ERR”)。 额 外 的 信息 紧 跟 在 命 
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令 结 果 单 行 上 的 状态 指示 符 之 后 











图 6-15 显示 了 一 个 POP3 会 话 。 注意 “S” 是 来 自 ”|5:+OK POP3 Server mail.cs.nctu.edu.tw 
服务 器 的 响应 ， 而 “C” 是 客户 端的 输入 。 在 这 个 例子 “|s: VOR sg Vowr pasoword 
中 ， 一 个 用 户 登 录 到 POP3 服务 鼎 。 首 先 ， 他 列 出 他 上 邮 ”|C: PASS sreer* 
箱 中 的 所 有 邮件。 然后 ， 他 检索 一 个 邮件 并 终止 会 话 。 |C ow ee 
互联 网 消息 访问 协议 v4 1S: -ERR illegal command 
林 联 网 消息 访问 协议 v4 (Tntemet Message Access 96 
Protocol Version 4，IMAP4) 首次 定义 在 RFC 1730,， 因 jC:LIST 
为 RFC 2060 和 RFC 3501 的 出 现 而 被 废除 ， 它 用 来 代 [CR es O99 ocets) 
符 POP3 协议 。 它 为 了 满足 在 任意 地 方 使 用 Web 浏览 1S:+OK 296 oetets 
器 访问 服务 器 上 的 电子 邮件 而 不 用 实际 下 载 它们 的 需 “Eomer stosend the mail eontent> 
杰 而 产生 的 。IMAP4 和 POP3 主要 的 区 别 在 于 ,，IMAP4 |s: +OK ydlin POP3 server signing off (maildrop empty) 





允许 在 邮件 系统 上 存储 和 处 理 邮 件 ， 而 POP3 只 允许 用 图 6-15 -个 POP3 会 话 
户 在 自己 的 机 融 革 下载、 存储 和 人 处理 他 们 的 邮件 。 监 

rp 143 并 运用 IMAP4 的 守护 进程 称 为 IMAP4 服务 名 :TIMAP4 让 :用 户 在 任何 PC 机 上 上 使 用 IMAP4 邮 
件 和 客户 端 访 取 、 回 复 并 在 IMAP4 服务 带 上 层次 化 的 文件 夹 上 存储 邮件 ， 让 客户 端 邮件 与 IMAP4 服务 器 
回 步 

IMAP4 会 话 : ht -个 阶段 : 客户 端 / 服 务 顺 连接 的 建立 、 从 服务 器 发 来 的 初始 化 欢迎 信息 和 客户 
端 / 服 务 顺 的 交 开 失 交 互 由 客户 端 命令 、 服 务 带 数据 和 服务 融 完 成 响应 组 成 。IMAP4 服务 器 可 能 处 
于 4 种 状态 之 一 全 只 有 在 特定 状态 下 是 有 效 的 . 4 个 状态 分 别 是 : 

1) Non-authenticated 当 在 IMAP4 服务 器 和 客户 端 之 间 建 立 连接 时 ， 服 务 器 就 进入 non-au- 
thenticated 状态 .在 大 多 数 命令 允许 执行 前 ， 客 户 端 必须 提供 认证 凭证 

2) Authenticated 当 开 始 一 个 预 认 证 连接 时 ,在 提供 可 接受 的 认证 凭据 或 者 发 生 一 个 邮箱 选 
择 铺 误 后 ， 服 务 器 就 进入 authenticated 状态 。 在 authenticated 状态 ， 在 影响 邮件 消息 的 命令 
获得 许可 之 人 

3) Selected 当 已 经 成 功 选择 一 个 邮箱 后 ， 服 务 咒 就 进入 selected 状态 。 在 这 个 状态 中 ， 
经 选择 了 要 访问 的 邮箱 

4) Logout 当 客户 端 请 求 退 出 服务 器 时 ， 服 务 器 就 进入 logout 状态 。 此 时 ， 服 务 器 将 关闭 
连接 

表 6-11 列举 了 IMAP4 命令 。 这 里 我 们 不 解释 每 一 条 命令 。 总 之 ，IMAP4 包括 创建 、 删 除 和 重 命名 
邮箱 的 操作 ; 检查 新 邮件 ; 永久 删除 邮件 ; 设置 和 清除 标志 ; RFC 822 和 MIME 信息 解析 和 搜索 ;以 
及 选择 性 获取 消息 届 性 、 文 本 和 其 中 一 部 分 。IMAP4 服务 器 上 的 邮件 利用 邮件 序列 号 和 唯一 标识 符 来 
进行 访问 


表 6-11 IMAP4 命令 








会 话 状态 命 令 
i (任何 ) CAPABILITY、 NOOP、 LOGOUT 
Non-authenticated AUTHENTICATE ~、 LOGIN 





SELECT、 EXAMINE 、 CREATE、 DELETE、, RENAME、 SUBSCRIBE、 UNSUBSCRIBE 、 
Authenticated 
LIST、 LSUB、~ STATUS、 APPDNED 





Selected CHECK、 CLOSE, EXPUNCGE. SEARCH, FETCH, STORE, COPY UID 





每 一 个 IMAP4 命令 为 “标签 ”的 标识 符 (通常 是 一 个 简短 的 字母 数字 字符 串 ， 如 
A001 、A002 等 ) 开始 个 发 送 的 命令 必须 使 用 一 个 唯一 的 标签 。 在 两 种 情况 下 ， 客 户 端 命令 可 以 
不 完整 地 发 送 。 i 中 的 任意 一 种 情况 下 ， 客 户 端 发 送 不 带 标 签 的 命令 中 的 第 二 部 分 ， 而 服务 器 
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会 使 用 一 个 以 符号 “+ ”开始 的 行 对 此 命令 进行 响应 。 客 户 端 在 发 送 另 一 个 命令 之 前 必须 完成 发 送 完 
整 的 命令 。 

在 IMAP4 中 的 响应 既 可 以 设置 标签 也 可 以 不 设置 标签 。 一 个 有 标签 的 状态 响应 指示 一 个 带 有 匹配 
标签 的 客户 端 命令 已 经 完成 。 不 带 标签 的 状态 响应 指示 服务 器 问候 或 者 其 他 不 是 命令 完成 的 服务 右 状 
态 ， 服 务 带 状态 响应 可 以 有 三 种 形式 : 状态 响应 、 服 务 融 数据 和 命令 继续 请 求 。 客 户 端 必须 随时 准备 
好 接收 以 下 响应 : 

1) 状态 响应 ”状态 响应 既 可 以 表示 完成 客户 端 命令 的 结果 (OK、NO、BAD) 也 可 以 表示 服务 器 
问候 和 和 警报 (PREAUTH 和 BYE) 

2) 服务 器 数据 在 接收 时 客户 庙 必须 记录 某 些 服务 融 数 据 ， 就 像 这 些 数据 的 描述 中 应 该 注意 的 一 
样 ， 数 据 传递 影响 所 有 后 续 命 令 和 响应 解释 的 关键 信息 ， 从 服务 器 传输 给 客户 端的 数据 和 并 不 表示 命 

令 完 成 的 状态 响应 称 为 无 标签 的 响应 。 每 一 个 无 标签 的 啊 应 是 以 “ “a*" 字符 作为 前 弘 的 。 

3) 命令 继续 请 求 ”这些 响 应 指示 服务 器 已 准备 接收 来 自 客 户 端的 后 续 命 令 。 这 个 响应 的 其 余部 分 
就 是 一 文本 行 。 

图 6-16 显示 了 一 个 JIMAP4 会 话 的 例子 。 用 户 利用 他 的 用 户 名 和 密码 登录 到 IMAP4 服务 器 。 认 证 











， 用 户 操作 “ 收 件 箱 ” 邮 箱 。 用 户 获 取 一 条 消息 ， 将 消息 标志 成 被 删除 ， 最 后 终止 会 话 ， 
S: * OK Dovecot ready. 
C: a001 login user passwd 
S: a001 OK Logged in. 
C: a002 select inbox 
S: * FLAGS (\Answered \Flagged \Deleted \Seen \Draft unknown-3 unknown-4 unknown-0 NonJunk 


$MDNSent Junk $Forwarded) 

S: * OK [PERMANENTFLAGS (\Answered \Flagged \Deleted \Seen \Draft unknown-3 
unknown-4 unknown-0 NonJunk $MDNSent Junk $Forwarded \*)] Flags permitted. 
* 885 EXISTS 

* (0) RECENT 

* OK [UNSEEN 869] First unseen. 

* OK [UIDVALIDITY 1243861681] UIDs valid 

* OK [UIDNEXT 5146] Predicted next UID 

a002 OK [READ-WRITE] Select completed. 

: a003 tetch 2 full 

* 2 FETCH (FLAGS (\Seen) INTERNALDATE “05-Apr-2009 17:50:01 +0800” 
RFC822.SIZE 2104 ENVELOPE (“Sat, 5 Apr 2009 17:50:01 +0800™ 


“=?big5?B? Rnc6IFJIOiC4Z7ZPs MqkSKTOusOrScV2ss6tcKrt?=" 

(Crhhuang”NIL ™ rhhuang” * rhhwang@exodue.cs.ceu.edu.tw”)) ((“rhhuang” NIL “ rhhuang” 
“rhhwang@exodue.cs.ccu.edu.tw”)) ((“rhhuang” NIL“ rhhuang” “ rhhwang@exodue.cs.ceu.edu.tw”)) 
BODY (“text” “html™ (“charset” “big5”) NIL NI1L “base64”1720 22)) 


a003 OK Fetch completed. 

a004 fetch 2 body[header] 

* 2 FETCH (BODYIHEADER] {384} 

From: “rhhuang” <rthhwang @exodue.cs.ccu.edu.tw> 

To: “ydlin” ydlin@cs.nctu.edu.tw> 

Subject: =?big5?B?Rnc6IFJIOiC4Z7ZPsMqk5KTOusOrScV2ss6tcKrt?= 
Date: Sat, 5 Apr 2009 17:50:01 +0800 

MIME-Version: 1.0 

Content-Type: text/html; charset="big5”; Content-Transfer-Encoding: base64 
X-Priority: 3; X-MSMail-Priority: Normal; X-MimeOLE: Produced By Microsoft MimeOLE 
a004 OK Fetch completed. 

: a005 store 2 +flags \deleted 

* 2 FETCH (FLAGS (\Deleted \Seen)) 

a005 OK Store completed. 

: a006 logout 

S: * BYE Logging out 

S: a006 OK Logout completed. 

S: Connection closed by foreign host. 


NA 











图 6-16 一 个 IMAP4 会 话 
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历史 演变 : 基于 Web 的 邮件 与 桌面 邮件 

Webmail 是 一 种 通过 Web 浏览 器 访问 的 电子 邮件 服务 ,而 不 是 桌面 电子 邮件 程序 ， 如 Microsofl 
Outlook 或 Mozilla 的 Thunderbird，2008 年 一 项 由 USA Today 进行 的 调查 显示 ,使 用 率 前 5 位 的 Web 邮 
件 供应 商 为 Microsoft Windows Live、Hotmail、Yahoo! Mail 、Coogle Gmail 和 AOL Mail。 这 些 供应 商 同 时 
也 向 用 户 提供 桌面 电子 邮件 服务 以 取 回 电子 邮件 。 与 桌面 电子 邮件 Webmail 相 比 有 两 个 优点 : 随时 随 
地 的 可 访问 性 和 几乎 可 忽略 不 计 的 低 维 护 成 本 。 使 用 Webmail， 可 以 通过 IMAP4 命令 在 远程 电子 邮件 
服务 器 上 维护 和 操作 电子 邮件 。 相反， 桌面 电子 邮件 服务 则 需要 客户 端 使 用 POP3 或 者 IMAP4 命令 从 
电子 邮件 服务 器 取 回 邮件 ， 并 且 需 要 用 户 将 邮件 存储 在 林地 用 户 计算 机 上 。. 然而， 桌面 电子 邮件 有 两 
个 优点 : 拥有 电子 邮件 完全 的 控制 权 ; 能 够 有 效 地 访问 存储 在 本 地 的 电子 邮件 。 有 趣 的 是 ， 由 于 需要 
完全 的 控制 ， 所 以 工程 师 和 科学 家 ， 更 倾向 于 选择 桌面 电子 邮件 而 不 是 Webmail 

在 Webmail 服务 中 有 两 个 接口 : 1) 在 客户 端 和 前 端 邮件 服务 器 之 间 使 用 GET 和 POST 等 HTTP 命 
令 的 Web 接口; 2) 在 前 端 Webmail 服务 器 和 后 端 电子 邮件 服务 器 之 间 使 用 POP3ATMAP4 命令 的 电子 
邮件 接口 。 前端 鸡 ebmail 服务 和 后 端 电子 邮件 服务 器 就 可 以 单独 也 可 以 集成 到 一 起 ， 分 别 如 图 6-17a 和 
6-17b 所 示 ， 在 图 6-17b 中 ， 将 两 个 接口 集成 到 了 一 台 机 器 上 ， 














webmail 后 端 邮件 webmail 服 务 器 
服务 器 服务 器 后 端 邮件 服务 器 
HTTP- 号 ， POP3 号 | Fr 局 | 
A GET POST Eb mr 上 < (ETLPOST Ey 
a) 前 端 与 后 端 分 隔 b) 前 端 与 后 端 集成 到 一 起 


图 6-17 Webmail 服务 体系 结构 


开源 实现 6.2: qmail 

概述 

qmail 是 一 个 为 类 UNIX 系统 设计 的 安全 、 可 靠 、 有 效 和 简单 的 MTA。 其 目的 是 为 了 替代 互联 网 
上 最 流行 的 MTA sendmail。 至今 为 止 ，qmail 已 经 成 为 互联 网 上 位 居 第 二 的 最 普及 的 SMTP 服务 
器 ， 并 且 是 所 有 SMTP 服务 器 中 增长 速度 最 快 的 。 这 里 我 们 不 介绍 sendmail 的 原因 是 ， 它 的 程序 和 
配置 文件 不 容易 理解 。 我 们 首先 介绍 qmail 系统 结构 、 控 制 文件 和 数据 流 。 然 后 我 们 详细 介绍 qmail 
的 队列 结构 。 

总 之 ，qmail 是 一 个 面向 连接 、 有 状态 的 SMTP (端口 25)、POP3 (端口 110) 和 IMAP4 (端口 
143) 协议 的 并 发 实现 。 它 还 支持 MIME 消息 . 

框图 

电子 邮件 系统 执行 各 种 任务 ， 如 处 理 输入 的 消息 、 管 理 队 列 、 发 送 消息 给 用 户 。 从 程序 结构 的 角 
度 ，sendmail 是 整体 单一 的 〈monolithie) ， 意 思 是 所 有 功能 在 一 个 庞大 的 、 复 杂 的 程序 中 实现 。 这 会 
导致 更 多 安全 缺陷 并 且 更 难以 维护 程序 。 但 是 ，qmail 是 模块 化 的 (modular) ， 意 思 是 整个 amail 系 
统 由 多 个 模块 组 成 。 每 个 qmail 模块 都 很 小 且 和 简单， 从 而 能 有 效 地 执行 特定 的 任务 。 模 块 化 设计 使 得 
每 个 程序 尽 可 能 以 最 小 权限 运行 ， 因 此 可 增强 安全 性 。 由 于 它 的 优秀 设计 ，qmail 也 易于 安装 和 管理 。 
qmail 的 核心 模块 以 及 它们 的 功能 如 表 6-12 所 示 。 图 6-18 显示 了 这 些 核心 模块 的 框图 。 在 这 些 框图 中 
指示 的 数据 流 将 会 在 算法 实现 中 进行 说 明 。 

表 6-12 ”amail 的 核心 模块 





























模 块 描 述 模 块 描 述 
qmail=smtpd | 通过 SMTP 接收 邮件 gqmail-lspawn | 调度 本 地 发 送 
qmail-inject 预 处 理 并 发 送 一 封 邮件 qmail-local 发 送 或 转发 邮件 
qmail-queue 将 邮件 排队 以 便 发 送 qmail-rspawn 调度 远程 发 送 
qmail-send 从 队列 中 发 送 邮 件 qmail-remote 通过 SMTP 发 送 邮 件 
gqmail-clean 清除 队列 目录 gqmail-pop3d 通过 POP3 发 布 邮件 
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MTA | 远程 邮件 服务 器 远程 邮件 客户 端 | MUA 


SMTP 





qmail 系统 


gmail-smtpd MTA 


MDA qmail-send 





dmall-rspawn 


qmail-rsmote 


MUA | 本 地 邮件 客户 端 


qdnaail-inject 


qmail-clean 


dmail-lspawn 


qmail-local 


maildox/maildir 


MRA | . qmail-pop3d 








SMTP POP3 


MTA | 远程 邮件 服务 器 MUA | 远程 邮件 客户 端 


图 6-18 在 amail 套件 中 的 数据 流 


数据 结构 


qmail 使 用 许多 配置 文件 更 改 系统 的 行为 。 这 些 文件 位 于 /var/amail/control 目录 下 。 在 局 
动 qmail 系统 之 前 ， 为 了 所 需要 的 配置 ， 我 们 需要 修改 部 分 文件 。 表 6-13 列 出 了 一 些 控制 文件 。 这 里 
我 们 介绍 3 种 最 重要 的 文件 。me 文件 存储 本 地 主机 的 完全 合格 域名 (Full Qualified Domain Name， 
注意 ， 所 有 本 地 域 必 须 包 括 在 该 文件 中 
locals 包含 本 地 主机 ， 即 发 送 到 这 些 主机 的 邮件 应 该 传递 给 本 地 用 户 。 


表 6-13 qmail 的 一 些 控制 文件 


FQDN)。rcpthosts 记录 qmail 将 要 接收 邮件 的 所 有 主机 
































控 制 | 默 认 使 用 者 描 述 
me 系统 的 FQDN 各 种 对 于 许多 控制 流 是 默认 的 
rcpthosts (无 ) qmail-smtpd qmail 接收 邮件 的 域 
locals me qmail-send qmail 本 地 发 送 的 域 
defaultdomain me qmail-inject 默认 的 域名 字 
Plusdomain me qmail-inject 添加 到 任何 以 加 号 (+ ) 结束 的 主机 名 后 
virualdomains | qmail-send 虚拟 域 和 用 户 
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cmail 队列 结构 

qmail 将 接收 的 邮件 暂时 存储 在 一 个 中 央 队 列 目 录 中 以 供 稍 后 发 送 。 这 个 目录 位 于 /var/qmail/ 
aueue， 该 目录 中 有 许多 子 目录 用 来 存储 不 同 的 信息 和 数据 . 表 6-14 描述 了 这 些 子 目录 以 及 它们 包含 
的 内 容 


表 6-14 ”qmail 中 的 子 目录 及 其 内 容 




















子 目 录 内 客 子 目 录 内 容 

ee 永久 发 送 错误 Mme 消息 文件 

Info 信封 发 送 者 地 址 pid | qmail-queue 使 用 以 便 获 取 一 个 衬 结 点 时 
抽 qmail-qucue 构造 的 信封 Remote 远程 信封 接收 者 地 址 

jocal 术 地 信封 接收 者 地 址 Todo 完整 的 信封 

Loek | 锁 文 件 














邮件 从 进入 到 离开 qmail 队列 会 经 过 许多 子 目 录 ， 如 图 6-19 所 示 。 这 包括 3 个 阶段 : 1) 邮件 进 
入 队列 ; 2) 预 处 理 队列 中 的 邮件 ; 3) 发 送 预 处 理 的 邮件 


邮件 





: 发 送 成 功 


1 

5: 如 果 存 在 就 就 添加 | 
删除 ， 然 后 再 {bounce/457 | 
Cn | 
除 | 

1 





图 6-19 邮件 如 何 通过 qmail 队列 传递 

进入 队列 

对 于 输入 的 邮件 ，qmail-quetie 首先 在 “pid” 目 录 下 创建 一 个 唯一 文件 名 的 文件 。 文 件 系 统 给 
该 文件 分 配 一 个 唯一 的 “inode ”号 ,如 457， qmail-queue 用 这 个 唯一 的 inode 号 标识 邮件 
qmail-queue 重 命名 新 创建 的 文件 ，pid/ 命 名 成 任意 名 ， 如 mess/457， 然 后 把 邮件 写 入 mess/457 
然后 ，qmail-queue 创建 另 一 个 新 文件 intd/457， 并 给 它 写 上 信封 信息 。 接 下 来 ，qmail-quque 将 
intd/457 链接 到 todo/457。 完 成 这 一 步 后 ， 邮 件 已 成 功 地 排队 ， 并 进行 了 预 处 理 。 

邮件 预 处 理 

邮件 预 处 理 的 目的 是 让 qmail-send 来 决定 哪个 接收 方 是 本 地 的 而 哪个 接收 方 是 远程 的 。 当 
qmail-send 找 到 todo/457 时 ， 它 首先 删除 info/457、local/457 和 remote/457， 如 果 它 们 存 
在 。 然 后 它 读 取 todo/457， 创建 info/457， 和 可 能 的 local/457、remote/457。 之 后 ， 它 删除 
intd/457 和 todo/457。 此 时 邮件 的 预 处 理 完成 。 现 在 local/457 或 remote/457 包含 接收 方 的 地 
址 ， 每 一 个 地 址 或 者 标记 为 NOT DONE， 或 者 标记 为 DONE。NOT DONE 和 DONE 的 定义 如 下 所 述 

NOT DONE 如 果 邮 件 没有 尝试 传递 ， 那 么 它们 遇 到 了 临时 错误 ， 稍 后 qmail-send 将 尝试 向 这 
个 地 址 传递 邮件 

DONE 邮件 成 功 传递 或 者 最 后 一 次 传递 尝试 永久 失败 。 不 管 是 哪 种 情况 ，qmail-send 将 不 再 尝 
试 向 这 个 地 址 传送 邮件 。 

邮件 传递 

qmail-send 在 其 空闲 时 间 将 邮件 发 送 到 NOT DONE 地 址 。 如 果 接 下 来 的 邮件 传 谤 成 功 ， 那 么 它 将 
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该 地 址 标识 为 DONE。 如 果 遇 到 一 个 永久 发 送 失 败 ， 那 么 qmail-send 将 首先 在 pounce/457 上 附加 一 
条 注释 ， 如 果 需 要 ， 就 创建 bounce/457， 然后 再 将 该 地 址 标记 为 DONE。 注意 ，qmail-send 向 
bounce/457 注入 一 条 新 的 退 信 通知 并 随时 删除 bounce/457。cmail-send 不 断 地 将 邮件 发 送 给 1c- 
cal/457 和 remote/457 中 的 地 址 ， 当 所 有 地 址 都 传递 完 后 ，qmail-send 删除 local/457 和 re- 
mote/457。 然后 qmail-send 删除 该 邮件 。 首先 ，cqmail-send 检查 bounce/457 是 否 存 在 。 如 果 
bounce/457 存在 ， 则 qmail-send 用 上 述 方式 对 其 进行 处 理 。 一 旦 bounce/457 被 删除 ，aqmail-send 
就 删除 info/457， 最 后 再 删除 mess/457 

算法 的 实现 

设置 amail 且 正 常 运行 后 ， 它 就 准备 好 接收 来 自发 送 者 的 邮件 。 一 封 邮 件 被 qmail 接收、 排队 并 

pt 可 能 经 过 许多 个 模块 。 图 6-18 显示 了 qmail 套件 中 的 数据 流 。 首 先 ， 程 序 接收 来 

发 送 者 的 邮件 。 这 个 程序 可 能 是 通过 SMTP 发 送 邮 件 的 qmail-smtpd， 也 可 能 是 本 地 生成 邮件 的 
ee qmail-queue 被 qmail-smtpd 或 者 qmail-inject 调用 将 邮件 放 进 中 央 队 列 目录 
中 。 然 后 邮件 由 qmail-send 与 qmail-lspawn 或 者 qmail-rspawn 合作 发 送 ， 最 后 由 qmail-clean 
清理 ,如 果 将 邮件 发 送 给 本 地 用 户 ， 那 么 gmai1l-lspawn 调用 qmail-local 将 邮件 存储 到 接收 者 邮箱 
或 邮件 目录 中 。 如 果 邮 件 的 接收 者 不 是 本 地 用 户 ， 那 么 qmai1l-rspawn 就 调用 qmail-remote 将 邮件 
发 送 到 接收 者 的 邮件 服务 器 .本 地 系统 上 的 接收 者 可 以 通过 qmail-pop3q 取 回 他 们 的 邮件 ， 值 得 注意 
的 是 ，gqmail-send、qmail-clean、qmail-lspawn 和 qmail-rspawn 是 一 直 运 行 的 后 台 守 护 进程 ， 
其 他 的 仅 在 需要 时 才 被 调用 。 

练习 

1. 找到 实现 qmail-smtpd、qmail-remote 和 qmail-pop3d 的 .c 文 件 和 代码 行 ， 

2. 在 qmail 结构 的 对 象 中 找到 qmail 队列 的 准确 结构 定义 。 

找 出 电子 邮件 是 如 何 存 储 在 邮箱 和 邮件 目录 中 的 ， 


6.4 万 维 网 

由 于 简单 而 强大 ， 万 维 网 (World Wide Web，WWW) 为 互联 网 的 快速 增长 做 出 了 和 贡献， 并 通过 信 
息 共 享 改 变 了 整个 世界 ,通过 对 了 匿名 FTP、Archie，Gopher - WAIS 等 匿名 信息 共享 服务 的 开发 ， 万 维 
Se 步 对 寻 址 方式 进行 标准 化 和 简化 ， 将 其 成 为 统一 资源 定位 符 ( Universal Resource Locator， 

， 将 多 媒体 内 容 格 式 转 换 为 超 文本 标记 语言 (HyperText mW Language，HTML) 和 后 来 的 扩展 
标 es ( eXtensible Markup Language，XML)， 并 将 访问 协议 转化 为 超 文本 传输 协议 ( HyperText 
Transfer Protocol ，HTTP)。 本 节 首 先 介绍 使 用 URL 的 Web 命名 和 寻 址 以 及 其 他 类 似 的 方案 。 然 后 我 们 
描述 HTML、XML 和 HTTP， 还 将 探讨 Web 缓存 和 代理 机 制 。 最后， 将 Apache 作为 开源 实现 的 例子 ， 
对 其 性 能 进行 简要 分 析 








6.4.1 简介 


万 维 网 为 统一 地 获取 知识 提供 了 一 种 网 络 空间 ， 并 且 它 允许 来 昕 不 同 地 点 的 合作 者 分 享 他们 的 想 
法 和 一 个 有 关 项 目的 所 有 方面 。 除非 其 个 项 目 是 协作 开发 的 而 不 是 独立 的 ， 否则 来 自 双方 的 结果 是 不 
可 能 储 成 一 个 融合 的 工作 。 从 Tim Berners-lee 在 欧洲 核子 研究 组 织 (CERN) 的 一 个 项 目 开 始 ，WWW 
已 经 成 为 白 1989 年 以 来 各 种 信息 检索 中 最 流行 的 媒介 
通过 使 用 像 微软 Internet Explorer (IE) 这 样 的 商用 浏览 览 器 或 者 其 他 的 新 兴 浏 览 器 (如 Firefox、 
Chrome 和 Opera Web) ， 用 户 按照 如 图 6-20 所 示 的 基本 步骤 就 可 以 访问 任何 在 线 的 Web 网 页 。 首 先 ， 
将 稍 后 讨 ; 的 统一 资源 定位 符 (URL) 中 的 服务 器 名 字 ， 通 过 DNS 解析 为 IP 地 址 。 浏 览 器 通过 TCP 
三 次 握手 连接 到 这 个 bier ni ee et eh 连接 建 
立 ， 浏 览 带 就 发 出 一 个 HTTP 请 求 以便 得 到 Web 服务 右上 的 资源 。 第 一 个 请 求 的 资源 是 一 个 HTML 网 
页 。Web 浏览 器 马上 解析 这 个 Web 网 页 ， 对 Web 页 面 pd 可 能 发 出 额外 请 求 。 
1996 年 RFC 1945 对 HTTP1.0 进行 了 标准 化 ， 而 1997 年 RFC 2068 对 HTTP1. 1 进行 了 标准 化 ，1999 年 
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DNS 服务 器 


2: TCP 三 次 握手 





1.DNS 查询 



















Web Web 
浏览 器 服务 器 





3: HTTP 请 求 





4: HTTP 响应 





图 6-20 ”Web 客户 端 如 何 与 Web 服务 器 交互 
由 于 RFC 2616 的 出 现 而 被 废除 。1995 年 RFC 1866 定义 了 HTML，2000 年 因 RFC 2854 的 出 现 而 被 废 
除 ，1995 年 RFC 1801 定义 了 统一 资源 标识 符 (Uniform Resource Identifier，URI)，2005 年 由 于 RFC 
3986 的 发 布 而 被 废除 


6. 4. 2 ”Web 命名 和 和 寻 址 

Web 是 一 个 用 大 量 的 网 页 和 文档 形成 的 信息 空间 。Web 上 的 信息 单元 称 为 资源 。 如 何在 这 个 空间 
中 寻找 和 操作 资源 是 一 个 重要 问题 。Web 命名 是 一 个 对 Web 上 的 资源 命名 机 制 ， 而 Web 寻 址 则 提供 访 
问 资 源 的 途径 。URI 是 一 种 标识 Web 资源 的 短 字符 串 。URI 通过 多 种 命名 方案 和 访问 方法 使 资源 可 用 
统一 资源 定位 符 (URL) 是 URI 的 一 个 子 集 ， 用 于 描述 Web 上 上 可 访问 的 资源 地 址 。 另 一 种 URI 是 统一 
资源 名 称 (Uniform Resource Name，URN)。URN 是 一 个 全 球 范 围 的 名 称 ， 而 不 是 指 位 置 。 图 6-21 显示 
了 URT、URL 和 URN 之 间 的 关系 。 注 意 ，URL 用 于 定位 或 者 寻找 资源 ， 而 URN 用 于 标识 。 

统一 资源 标识 符 

统一 资源 标识 符 是 一 个 用 于 标识 抽象 或 物理 资源 的 紧凑 字符 
串 。 任 何 资源 ， 无 论 它 是 文本 页 面 、 图 片 、 视 频 或 音频 剪辑 ， 还 是 

旺 序 ， 都 有 一 个 用 URI 编码 的 名 字 。 一 个 URI 通常 由 3 个 部 分 
组 成 : 

1) 用 于 访问 资源 的 命名 方案 

2) 放置 资源 的 机 器 名 字 

3) 资源 本 身 的 名 字 ， 以 目录 或 者 文件 名 的 方式 给 出 。 

URI 的 通用 句法 包括 绝对 和 相对 两 种 形式 。 绝 对 标识 符 指 的 是 
独立 于 当前 上 下 文 的 资源 ， 而 相对 标识 符 指 的 是 它 与 当前 上 下 文 ”图 621 URI、URL 和 URN 
URI 的 差别 来 标识 的 资源 。 绝 对 URI 的 句法 是 : 的 

<scheme>:<scheme-specific-part>#<fragment> 
其 中 包括 3 部 分 : 使 用 的 方案 名 称 ( < scheme > ) ,一 个 解释 取决 于 该 方案 的 字符 串 ( < scheme- 
specific-part >)， 以 及 一 个 可 用 于 传达 额外 参考 信息 的 可 选 的 分 段 标识 符 ( < fragment > ) 。 

URI 的 子 集 共享 常用 的 句法 ， 表 示 命 名 空间 中 的 层次 化 关系 。 就 得 到 “通用 的 URI”， 

<scheme>:<authority><path>?<query>#<fragment> 
其 中 ， 具 体 方案 部 分 进一步 细 分 成 < authority> 、<path > 和 <query> 几 个 组 件 。 许 多 URI 方 
案 包 括 一 个 用 于 命名 权威 的 顶级 层次 元 素 ， 因 此 < authority > 用 来 管理 其 他 URI 定义 的 命名 空间 。 
<path > 组 件 包 含 特定 权威 的 数据 ， 用 来 标识 指定 的 方案 和 权威 的 资源 。 < query > 组 件 是 由 资源 解 
释 的 信息 。 

有 时 ，URI 也 可 以 采取 相对 URI 的 形式 ， 其 中 方案 和 权威 组 件 常常 省 去 。 其 路 径 通 常 指向 与 当前 
| 下文 位 于 同一 台 机 器 上 的 资源 。 相 对 URI 的 句法 为 


<path>?<query>#<fragment>. 
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图 6-22 显示 了 一 些 URI 例子 。 第 一 个 例子 的 URI 解释 如 下 : 位 于 服务 器 speed. cs. nctu. edu. tw 上 
的 书籍 信息 可 以 利用 HTTP 协议 通过 路 径 ~/ydlin/index. html 访问 。 最 后 的 例子 是 相对 UR1。 假 设 我 们 
有 基本 URT 为 http: [www. cssnetu edu. twA。 最 后 例子 中 的 URI 将 扩展 成 完整 的 URI: http: /AX 


www. cs. netu. edu. tw/icons/logo. gif, 





htip:/speed.cs.nctu.edu.tw/~ydlin/index.html#Books 

htip:/www. google.com/search?”’q=linux 
fip:Mfip.cs.nctu.edu.tw/Documents/IETF/rfc2300~2399/rfc2390.1xt 
| mailto: ydlin@cs.nctu.edu.rw 

news: comp.os.linux 

telnet://bbs.cs.nctu.edu.rw/ 

/icons/logo.gif 











图 6-22 ”部 分 URI 例子 

统一 资源 定位 符 

统一 资源 定位 符 是 互联 网 上 资源 定位 的 紧凑 字符 串 表示 形式 。 它 是 URI 的 一 种 形式 。URL 既 可 以 
将 人 也 可 以 将 软件 导向 各 种 信息 ， 通 过 许多 不 同 的 互联 网 协议 提供 。URL 的 通用 句法 如 下 : 

<service>//<user>:<password>@<host>:<port>/<url-path> 
部 分 或 全 部 <user > : <password > 6 ，“: <password >,“: <port > 和 /<url-path > 可 能 
被 忽略 。 在 前 面 的 句法 中 ，< service > 指向 提供 资源 的 具体 方案 。 这 里 讲述 的 方案 在 表 6-15 中 列 
出 。 具 体 方案 之 后 紧 跟着 以 双 和 斜 线 / /开始 的 数据 。 < USER > 和 <password > 是 可 选 的 用 户 名 和 密码 。 
如 果 存 在 ， 用 户 名 和 密码 就 用 冒号 (: ) 隔 开 ， 后 跟 符号 @ 。 < host > 指示 域名 或 网 络 主机 的 趾 地 
址 。<post > 和 主机 之 间 用 冒号 (: ) 隔 开 ，<post > 是 要 连接 的 主机 端口 号 。 <url-path > 指定 如 
何 寻 址 指定 资源 的 详细 情况 。 注意, 在 host (或 post) 和 URL 路 径 之 间 的 单 斜 线 (/) 不 是 URL 路 
径 的 一 部 分 。 

表 6-15 ”URL 中 的 具体 方案 

















服 务 说 明 服 务 说 明 
ftp 文件 传输 协议 nntp 使 用 NNTP 访问 USENET 新 闻 
http 超 文 本 传输 协议 telnet 参阅 交互 式 会 话 
gopher Gopher 协议 wais 广 域 信息 服务 器 
mailto 电子 邮箱 地 址 file 特定 主机 的 文件 名 
news USENET 新 闻 prospero Prospero 目录 服务 














图 6-23 显示 了 一 些 URL 的 例子 。 第 一 个 URL 指示 Web 站 点 www. cs. nctu. edu. tw 上 图 像 文 件 的 位 
置 ， 而 第 二 个 是 通过 SSL ( 安全套 接 字 层 ) 协议 (由 “https” 服 务 方案 指定 ) 可 访问 的 计算 机 学 院 
Webmail 站 点 。 第 三 个 URL 表示 FTP 服务 器 ftp. cs. nctu. edu. tw 可 提供 的 一 个 文本 文件 。 在 这 个 例子 
中 ， 用 户 用 他 的 用 户 名 “john” 和 密码 “secret” 登 录 到 FTP 服务 器 。 第 四 个 例子 是 指 在 新 闻 服 务 带 
news. cs. nctu. edu. tw 上 的 网 络 新 闻 组 cs. course. computer 的 编号 为 5238 的 新 闻 文 章 ， 最 后 一 个 URL 显 
示 了 一 个 可 以 通过 端口 110 利用 telnet 协议 访问 的 交互 式 服务 ， 





http://www.cs.nctu.edu.tw/chinese/ccg/titleMain.gif 
https://mail.cs.nctu.edu.tw/ 
ftp://john:secret@ftp.cs.nctu.edu.tw/projects/book.txt 
nntp://news.cs.nctu.edu.tw/cis.course.computer-networks/$238 
telnet://mail.cs.nctu.edu.tw:110/ 


图 6-23 一些 URL 例子 








统一 资源 名 称 
在 Web 网 页 上 ，URL 提供 给 定 资 源 的 位 置 。 如 果 将 资源 移动 到 另 一 个 位 置 ， 那 么 它 的 URL 也 会 
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变化 。URN 通过 为 资源 提供 永久 标识 符 试图 来 克服 这 个 问题 。URN 是 一 种 独立 于 位 置 的 名 字 ， 用 于 标 
识 Web 上 的 资源 。URN 句法 ， 包括 4 个 部 分 ， 它们 分 别 是 : 

<URN> ::= “urn:” <NID> "“:” <NSS> 
其 中 <URN > 只 是 一 个 标识 名 称 为 URN 的 标签 , “urn:” 是 用 来 确定 如 何 处 理 URN 的 名 字 空 间 标识 
符 ，<NID > 是 一 个 名 字 空 间 标示 符 ， 它 用 来 指定 这 个 URN 方案 的 权威 ，<NSS > 是 特定 名 称 的 字符 
串 ， 其 句法 和 意义 在 <NID> 的 上 下 文中 定义 。 换 句 话说 ，< NSS > 的 含义 由 拥有 特定 URN 名 字 空 间 
的 <NID> 分 配 和 决定 

图 6-24 给 出 了 了 一些 URN 例子 。“ path”、“www-cs-nctu-edu-tw” 和 “isbn” 是 名 字 空 间 标 识 符 ，。 第 
一 个 例子 由 命名 权威 或 路 径 “Zhomeyydlinyeourses” 以 及 一 个 唯一 的 字符 串 “index. html” 组 成 。 第 二 
个 例子 说 明了 一 个 在 域 www=-es-netu-edu-tw 上 的 学 生 。 最 后 一 个 例子 是 一 本 书 的 URN，、URN 使 用 这 本 
拉 的 ISBN 豆 作 为 名 衬 。 如 果 一 个 服务 想 要 使 用 URL 指向 该 书 ， 它 可 能 看 起 来 像 





urn:path:/home/ydlin/courses/index.html 
urn:www-cs-netu-edu-tw:student 


urn:isbn:0-201-56317-7 
图 6-24 一 些 URN 例子 








http://www.isbn.com/0-201-56317-7 
其 中 包含 一 个 特定 的 协议 和 一 个 可 能 随 着 时 间 而 更 改 的 域名 。URN 不 包含 这 些 可 变 内 容 ， 所 以 它 比 较 
稳定 。 但 是 ， 如 果 有 一 个 能 够 将 名 字 映 射 到 对 应 资源 的 系统 就 会 更 有 用 。 这 种 过 程 称 为 解析 ， 类 似 于 
DNS 将 域名 解析 为 IP 地址 的 方式 。 虽然 URN 可 以 解析 为 任何 网 络 资源 或 服务 ， 但 RFC 1737 主要 将 
URN 解析 为 URL。 


6.4.3 HTML 和 XML 


超 文本 标记 语言 (HTML) 是 Web 网 页 设计 的 最 主要 的 标记 语言 。 从 作为 万 维 网 联盟 ( W3C) 指 
定 的 标准 通用 标记 诸 言 (SGML) 演变 而 来 ，HTML 通过 把 文本 表示 为 链接 、 标 题 、 段 落 、 列 表 等 提供 
了 一 种 基于 文本 的 文档 信息 结构 描述 手段 ， 为 文本 补充 了 交互 式 表格 、 骨 人 式 图 像 和 其 他 对 象 。 HTML 
是 以 尖 括 号 括 起 来 的 “标签 ”形式 书写 的 

然而， 纯 格 式 已 认为 不 足以 帮助 读者 理解 信息 。 我 们 希望 ， 人 们 可 以 在 标记 语言 中 定义 自己 的 标签 
来 描述 数据 ， 而 不 是 简单 地 格式 化 它们 。 因 此 ， 扩 展 标 记 语 言 (XML) 应 运 而 生 。XML 于 2007 年 定义 
在 RFC 4826 文档 中 。 它 允许 用 户 定 义 标记 元 素 ， 并 有 助 于 信息 系统 共享 结构 化 数据 。 与 HTML 仅 支 持 有 
限 的 格式 不 同 ，XML 提供 了 一 种 称 为 可 扩展 格式 语言 (XSL) 的 标准 格式 规格 。 与 只 能 接受 只 有 少数 层 
次 的 HTML 相 比 ， 它 能 够 允许 任意 层次 的 构 套 结构 。 它 支持 标准 化 解析 的 正式 语法 ， 并 使 解析 更 容易 
除了 类 似 HTML 的 简单 链接 外 ，XML 是 可 扩展 的 链接 ， 其 中 目标 包括 多 个 相同 或 不 同类 型 的 对 象 资 源 
这 使 内 容 提供 灵活 ， 并 可 以 在 XML 链接 堵 言 (XLink) 和 XML 指针 语言 (XPointer) 上 实现 


6.4.4 HTTP 

HTTP 消息 包括 客户 端 和 服务 带 之 间 的 请 求 和 响应 。 请 求 消息 包括 : 1) 请 求 行 ， 其 中 包括 应 用 于 
资源 的 方法 、 资 源 标识 符 和 使 用 的 协议 版 本 ; 2) 头 部 ， 它 定义 了 请 求 或 提供 的 各 种 数据 特征 ; 3) 空 
行 ， 它 用 来 将 头 部 和 消息 止 文 分 隐 开 ; 4) 一 个 可 选 的 消息 正文 。 

到 6-16 列 出 了 请 求 消息 中 使 用 的 请 求 方法 。 它们 中 的 许多 值得 进一步 说 明 。CONNEcT 用 来 动态 地 
从 一 条 连接 切换 到 一 条 隧道 ， 如 SSL 加 密 隧 道 ， 以 确保 通信 安全 。GET 是 检索 指定 资源 最 广泛 使 用 的 
方法 。HEAD 是 GET 的 伪 码 版 本 ， 经 常用 来 测试 超 文本 链接 的 有 效 性 、 可 访问 性 、 最 近 修 改 。 在 没有 
局 动 资源 行动 或 资源 检索 的 情况 下 ， 赛 户 端 可 以 使 用 OPTIONS 请 求 为 特定 的 URL 提供 通信 选项 信息 

POST 提交 数据 作为 指定 资源 的 新 从 属 分 支 。PUT 请 求 数据 准确 地 在 指定 资源 存储 。 如 果 指 定 资源 
己 经 存在 ， 那 么 数据 应 该 视 为 位 于 原始 服务 器 上 的 数据 修改 版 本 。 虽 然 PosT 和 PUT 很 相似 ， 但 还 有 
- 定 的 差异 。PUT 是 一 种 有 限制 的 操作 ， 只 不 过 是 把 数据 放 在 一 个 指定 的 URL 上。 但是， 根据 服务 器 
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的 四 辑 ，PoST 允许 服务 带 对 数据 做 任何 想 划 的 操作 ， 包 括 将 它 存 储 在 指定 的 页 面 、 新 的 页 面 、 数 据 库 
或 者 直接 丢掉 。 方 法 TRACK 用 来 调用 请 求 的 远程 应 用 层 回 送 地 址 。TRACE 人 允许 客户 端 查看 在 请 求 的 接 
收 端 收 到 的 内 容 ， 并 使 用 这 些 数据 作为 测试 或 诊断 信息 。 


表 6-16 HTTP 协议 的 请 求 方法 

















请 求 方法 描 述 请 求 方法 描 述 
动态 地 将 请 求 连接 切换 到 隧道 .如 SSL 请 求 有 关 可 用 选项 的 信息 和 与 指定 URL 相 
CONNECT | OPTIONS ek 
隧道 关联 的 要 求 
DELETE 如 果 可 能 ， 删除 服务 器 上 指定 的 资源 POST 将 数据 作为 指定 资源 的 分 支 提交 
GET 请 求 指定 资源 的 代理 PUT 要 求 数据 存储 在 指定 的 资源 下 
HEAD 要 求 作为 GET 的 响应 ， 但 是 没有 响应 内 容 TRACE 调用 请 求 的 远程 应 用 层 回 送 地 址 














接收 并 解释 请 求 消息 后 ， 服 务 顺 就 用 HTTP 响应 消息 作为 响应 。 响 应 消息 的 第 一 行 包含 协议 的 版 
本 ， 后 跟 数 字 状 态 代码 和 与 它 相关 的 文字 短语 。 表 6-17 概括 了 响应 状态 代码 。 状 态 代 码 是 3 位 整数 代 
码 ， 用 来 报告 满足 请 求 的 尝试 结果 。2xx 状态 代码 表示 请 求 已 被 成 功 地 处 理 


表 6-17 HTTP 协议 的 响应 状态 代码 

















响应 状态 代码 描 述 
bg 通知 性 的 一 请 求 收 到 ， 继 续 处 理 
2 成 功 一 行动 已 经 成 功 地 被 接收 、 理 解 和 接受 

| 5 重 定向 一 必须 采取 进一步 的 行动 ， 以 完成 请 求 
4 客户 端 错误 一 请 求 包含 句法 错误 或 无 法 完成 
Si 服务 器 错误 一 服务 器 无 法 完成 一 个 显然 有 效 的 请 求 





图 6-25 给 出 了 一 个 HTTP 会 话 的 例子 ， 其 中 客户 端 下 载 了 一 些 图 像 文件 ， 然 后 将 多 个 文件 上 传 到 
远程 服务 大 上 





:GET /HTTP/l.lrn 

: HTTP/].1 200 OK\rn 

: GET /images/doclist/icon_5_spread.gif HTTP/1.1\n 

: HTTP/1.1 200 OKNn 

: GET /images/doclist/icon_5_chrome_folder.gif HTTP/1.1\rn 

HTTP/1.1 200 OK\rn 

: GET /doclist/client/js/3857076368-doclist_modularized-webkit_app_ zh _ tw.js HTTP/1.l\rn 
HTTP/1.1 200 OK\rn 

POST /ir HTTP/1.1\rm 

HTTP/1.1 200 OK 

GET /DocAction?action=updoc&hl=zh_TW HTTP/LINrn 

HTTP/1.1 200 OK\rn 

: GET /doclist/client/js/2829347588-doclist_upload__zh_twjs HTTP/LINND 
HTTP/1.1 200 OK\rn 

: GET /images/doclist/icon_5_folder.gif HTTP/1.1\n 

: HTTP/1.1 200 OKNn 

: POST /upload/resumableupload HTTP/1.1\r\n 

: HTTP/1.1 201 Created\r\in 

: POST 
/upload/resumableupload/AEnB2UqcOvh4TITW3KblkSayKtlptLeH-mVAd2cvLdSFDI1jSIQd1nNdJeZ 
bVhOsKliVO4VeR9MP _gleoUDwU24rO07vUHUYvsQ/O HTTP/l.1r\n 

S: HTTP/1.1 200 OKNrn 

C: GET / HTTP/l.1\\n 

S: HTTP/1.1 200 OK\\n 

C: POST /ir HTTP/1.1\rn 

S: HTTP/1.1 200 OK\rn 
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图 6-25 一 个 HTTP 会 话 的 例子 


站 
; 
[ey] 
地 





308 
从 无 状态 到 有 状态 
HTTP 基本 上 是 一 个 无 状态 协议 ， 也 就 是 说 ， 在 与 客户 端 交 易 期 间 服务 器 不 会 保存 任何 状态 。 服 务 


器 获取 客户 端 请 求 的 页 面 ， 完 成 交易 ， 央 此 每 一 个 交易 都 是 独立 的 。 然 而 ， 如 果 能 有 客户 端的 帮助 ， 
那么 HTTP 服务 器 就 可 以 以 好 像 是 有 状态 地 工作 

有 了 两 种 方法 可 以 为 需要 有 状态 的 应 用 实现 有 状态 的 HTTP 交易 。 首 先是 使 用 会 话 的 屋 念 ， 其 中 在 
宅 户 没有 察觉 的 情况 下 将 所 有 与 潜在 会 话 有 关 的 参数 保存 在 服务 器 |。 然而 ， 由 于 服 务 器 的 内 存 空 间 
有 限 ， 所 以 这 种 方法 缺乏 可 扩展 性 ， 导 致 会 话 状 态 很 快 过 期 ， 为 了 修复 这 个 缺点 ， 利 用 相对 较 小 的 
cookies 作为 替代 ， 其 中 将 状态 通过 HTTP 头 部 发 送 到 客户 端 ， 然 后 以 cookie 的 形式 存储 。 客 户 端 在 随 
后 的 同一 会 话 的 HTTP 请 求 中 嵌入 cookie。 虽 然 可 扩展 性 得 到 了 极 大 的 扩展 ， 但 这 仍然 需要 客户 端的 合 
作 , 通常 是 通过 用 户 手动 设置 来 启用 cookies， 并 且 会 给 客户 端 带 来 安全 隐患 。 

除 交易 级 的 有 状态 外 ，HTTP1. 1 坚持 提供 了 额外 的 连接 级 的 有 状态 。 也 就 是 说 ， 只 要 有 一 条 TCP 
连接 就 足以 为 客户 端 与 服务 器 进行 所 有 交易 ， 这 需要 使 用 可 配置 的 超时 定时 豆 。 与 普通 的 HTTP1.0 的 
每 个 交易 都 建立 一 条 连接 相 比 ， 这 显然 节省 了 许多 时 间 和 内 存 空间 。 


行动 原则 : 通过 端口 80 或 HTTP 的 非 WWW 流量 

通常 互联 网 应 用 与 一 个 众所周知 的 服务 器 端口 号 相关 联 。 例如， 端口 53 用 于 DNS 服务 ， 端 口 20 
和 21 用 于 FTP 服务 ， 端 口 25、110 和 143 分 别 用 于 SMTP、POP3 和 IMAP4 服务 ， 端 口 80 用 于 HTTP 服 
务 ， 如今， 网 络 传输 更 加 复杂 的 流量 ， 如 使 用 动态 分 配 的 端口 号 的 P2P 流 量 ， 然而， 在 这 些 非 知名 端 
口上 的 流量 经 常 由 于 各 种 原因 而 被 企业 防火 墙 阻 塞 。 因 此 ， 许 多 这 样 的 应 用 利用 TCP 端口 80 或 HTTP 
消息 来 掩饰 自己 的 流量 以 便 能 够 通过 防火 墙 。 例 如 ，Skype 可 以 配置 成 运行 在 端口 80 上 。Windows Live 
Messenger 使 用 微软 通知 协议 (MSNP) 通过 TCP 端口 1863 发 送 消息 ， 但 作为 可 选项 ， 它 能 够 将 MSNP 
消息 封装 在 HTTP 消息 中 

通过 端口 80 的 传输 与 通过 HTTP 的 传输 是 不 同 的 。 通 过 构建 与 端口 80 的 连接 很 容易 实现 前 者 ， 而 
后 者 将 原始 流量 封装 在 HTTP 消息 中 。 在 任 一 情况 下 ， 我 们 的 目标 是 通过 端口 80 或 HTTP 消息 穷 路 流 
量 以 躲避 防火 墙 。 因 此 ， 防 火 墙 或 网 络 管理 员 无 法 根据 端口 号 或 HTTP 消息 标识 消息 的 类 型 ， 因 为 即 
使 被 识别 为 Web 流量 的 流量 也 可 能 是 其 他 类 型 


历史 演变 : 谷歌 应 用 程序 

在 云 计算 时 代 ， 软 件 将 作为 服务 租 给 客户 端 而 不 是 出 售 和 被 拥有 。 虽然 谷歌 以 提供 互联 网 搜索 服 
务 而 闻名 于 世 ， 但 它 已 经 发 布 了 多 个 基于 Web 的 产品 ， 包 括 Gmail、 人 谷歌 地 图 、 人 谷歌 日 历 、 谷 歌 聊 天 、 
谷歌 文档 、 谷 歌 网 站 、 人 谷歌 笔记 本 和 谷歌 Chrome， 以 及 Picasaweb/Picasa。 谷 歌 利 用 复制 服务 器 、 数 据 
备份 和 云 计算 等 技术 在 服务 器 之 间 分 散 工 作 负 载 以 提高 整体 性 能 。 最 初 ， 谷 歌 应 用 仅 支持 在 线 版 本 ， 
其 中 所 有 的 操作 都 转化 成 串 行 命令 ， 通 过 互联 网 传输 并 由 谷歌 服务 器 来 完成 ， 但 目前 它们 还 支持 用 户 
本 地 操作 的 脱 机 版 本 ， 并 且 当 连接 到 谷歌 的 服务 器 时 就 能 传输 最 后 的 结果 。 9 

表 6-18 概括 了 不 同 谷歌 应 用 的 特点 。 谷歌 文档 类 似 于 ( Microsoft) 0ffice， 是 一 种 基于 Web 的 在 线 
应 用 程序 套件 ， 支 持 更 多 在 线 协同 工作 。 谷 歌 笔记 本 是 一 种 基于 Web 的 在 线 笔记 本 。 谷 歌 Chrome 是 
一 种 使 用 WebKit 布局 引擎 和 V8 JavaScript 引擎 的 Web 浏览 器 。 谷歌 地 球 是 一 种 显示 详细 的 卫星 地 图 ， 
其 至 街道 概览 的 地 理 信息 系统 。 谷歌 会 话 是 一 种 基于 Web 的 服务 ， 旨 在 为 个 人 和 协作 通信 将 电子 邮 
件 、 即 时 通信 和 社交 网 络 集成 起 来 。 参 与 者 可 以 发 送 、 回 复 和 编辑 名 为 会 话 的 消息 文件 ， 添 加 参与 者 ， 
通知 更 改 ， 当 有 其 他 合作 者 输入 时 实时 地 做 出 应 答 。 


表 6-18 谷歌 应 用 分 类 





种 类 应 用 程序 的 名 字 评 论 
支持 文档 、 表 单 和 表示 的 文本 编辑 
从 公 套件 | 谷歌 文档 -协作 编辑 文档 
| 一 支持 在 线 使 用 
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( 续 ) 
eh 谷歌 网 站 | web 站 点 内 容 的 协作 编 加 
谷歌 笔记 本 . 支持 在 线 使 用 
Picasaweb ， - 组 织 / 编 辑 数字 照片 


冬 片 编 畦 
图 片 编 抽 Picasa . 支持 在 线 /离线 使 用 





: 使 用 XMPPZJingle 协议 
“支持 在 线 使 用 
-Webkit 布局 引擎 
Web 浏览 器 | 谷歌 Chrome pi 
| “ 支持 在 线 /离线 使 用 
“ Agenda 日 程 管理 、 安 排 、 共享 在 线 日 历 以 及 移动 日 万 同 步 


即时 通信 Z 聊 天 谷 歇 聊天 











时 间 管 理 | 谷歌 日历 














| " 支持 在 线 / 离 线 使 用 
ee = | 
| 谷歌 地 图 * 在 线 影射 服务 
地 图 人 A 
谷歌 地 球 支持 在 线 使 用 
通信 /协作 谷 软 会 话 设计 用 于 集成 电子 邮件 、 即 时 通信 、Wiki 和 社交 网 络 服务 
"基于 Web 的 接口 
电子 邮件 Gmail - 支持 POP3 、IMAP4 和 SMTP 
' 支持 在 线 / 离 线 使 用 





6.4.5 Web 缓存 和 代理 

Web 缓存 是 万 维 网 上 的 一 种 加 快 文件 下 载 的 机 制 。 就 像 计 算 机 系统 中 的 普通 缓存 概念 一 样 ， 将 以 
前 用 户 检 索 过 的 远程 内 容 副 本 保存 在 本 地 的 缓存 服务 器 上 以 便 将 来 的 访问 ， 目 的 是 提高 带宽 效率 ， 而 
且 最 重要 的 是 ， 上 网 体验 更 为 快捷 。 这 对 于 频繁 访问 的 网 页 特别 有 帮助 . 

一 旦 收 到 请 求 ， 缓 存 服务 天 就 检查 是 否 有 一 个 有 效 的 副本 可 供 使 用 。 如 果 有 (高 速 缓存 命中 ) ， 
那么 服务 融 将 立刻 将 缓存 的 页 面 返回 给 客户 端 ; 否则 客户 端 (浏览 融 ) 将 收 到 消息 页 面 未 找到 ， 窜 户 
人 并 且 绕 过 缓存 服务 器 。 为 了 达到 Web 缓存 
的 最 大 满意 度 站 

缓存 的 对 象 昌 然 近 儿 年 磁盘 制造 技术 已 经 有 了 较 大 的 进步 ,但 大 小 限制 仍然 需要 用 户 不 要 滥用 
磁盘 配额 ee 
是 必要 的 ， 这 往往 意味 着 频繁 地 抓 取 静态 网 页 ， 而 不 是 基于 CCIAPHP/ASP 的 动态 内 容 

内 容 置 换 ”为 了 进一步 处 理 可 能 的 磁盘 存储 短缺 ， otal aloe ad 置换 技术 。 前 者， 
在 有 限 的 存储 中 使 用 ， 简 单 地 删除 旧 的 网 页 以 便 能 腾 出 室 间 ， 当 然 应 用 选择 步骤 可 能 要 基于 网 页 受 欢 
迎 的 程度 和 新 鲜 度 ，。 在 相对 宽松 的 存储 需求 中 ， 0 超过 效 值 就 执行 内 容 壮 换 。 

高 速 缓存 一 致 性 除了 找 出 并 移 除 旧 内 容 的 普通 兽 换 外 ， 给 每 个 缓存 项 设置 过 期 时 间 以 防止 它 的 
a A ee 这 认为 是 更 合适 的 。 
但 是 对 于 后 者 的 权衡 是 ， 后 者 会 增加 计算 和 通信 天 销 ， 尤 其 是 在 高 峰 时 间 。 

透明 代理 

缓存 服务 融 也 可 以 作为 代理 服务 器 ,这 有 助 于 在 出 现 缓存 未 命中 时 将 查询 转发 到 正确 的 目的 地 
转发 目的 地 可 能 是 另 一 台 缓 存 服务 融 或 相应 的 Web 服务 器 。 此 功能 在 两 个 方面 是 有 益 的 。 第 一 ， 重 新 
从 客户 端 向 Web 服务 器 发 送 请 求 的 开销 去 掉 了 。 第 二 ， 也 是 最 重要 的 ， 通 过 将 所 有 的 访问 集中 在 代 纯 
月 务 器 并 对 它们 进行 监控 可 以 最 大 限度 地 控制 网 络 。 

通常 情况 下 ，Web 缓存 功能 上 要 求 客 户 端 预 先 设 置 浏览 器 ， 以 确保 它 首 先 检查 缓存 服务 器 。 换 句 话 


Es 
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说 ， 浏 览 需 必 须知 道 缓存 服务 占 的 地 址 ， 然而， 复杂 的 手动 配置 通常 会 阻碍 用 户 激活 Web 缓存 ， 壮 运 
的 是 ， 这 些 工 作 可 以 通过 透明 代理 处 理 ， 其 中 包括 一 个 称 为 端口 重 定 向 的 网 关 级 技术 。 以 同时 文 持 组 
存 和 代理 的 流行 的 开源 软件 包 ssaia 作为 例子 .网 络 的 网 关 服 务 需 收集 所 有 发 向 端 口 80 的 Web 访问 
并 将 其 重 定向 到 〈 例 如 , 在 Linux 中 使 用 iptables) Squid 服务 右上 |:， 它 一 般 集成 在 相同 的 网 关中 

这 样 ， 服 务 咒 对 于 一 般 用 户 儿 乎 是 透明 的 ， 因 此 就 不 必 鉴 进行 手动 配置 。 图 6-26 中 的 场景 (1) 描述 
了 集成 在 网 关中 的 透明 代理 的 概念 





网 关 








HTTP 请 求 








目的 
端口 =80 ， 


代理 /缓存 服务 器 











HTTP 请 求 





目的 
端 中 =80， 


| 设备 僵 子 
(2) 











图 6-26 ”透明 代理 的 两 种 配置 类 型 
然而 ， 并 不 是 所 有 的 系统 管理 员 喜 欢 集成 的 代理 /缓存 服务 器 部 署 ， 这 既 可 能 是 由 于 性 能 上 的 考虑 
也 可 能 是 由 于 在 网 络 折 扑 中 没有 网 关 的 缘故 ,在 这 种 情况 下 ,通过 策略 路 由 ， 一 个 独立 的 服务 器 盒 
可 以 和 一 个 单独 的 路 由 器 一 加 应用， 或 者 通过 基于 目的 端口 号 的 交换 规则 与 第 4 层 交换 一 起 应 用 ， 如 
图 6-26 中 的 场景 (2) 所 示 ， 


开源 实现 6.3: Apache 
概述 
毫 无 疑问 ， 当 谈 到 开源 Web 服务 器 时 ，Apache 能 够 作为 当代 的 突出 代表 。 由 于 具有 完整 的 功能 ， 
如 带 有 数据 库 的 动态 页 面 (如 PHP+MYSQL 或 内 置 mod qdbq 模块 ) 、SSL 支持 、IPv6 支持 、XMTL 支 
持 、 可 扩展 成 多 线程 体系 结构 ，2010 年 Apache 以 47% 的 市 场 份额 继续 称霸 Web 服务 器 市 场 。 

随 着 各 种 Web 相关 服务 需求 的 不 断 增 长 ，Apache Web 服务 器 也 已 经 成 为 开源 社区 中 最 复杂 的 服务 
器 之 一 。 但 是 ， 由 于 它 的 模块 化 设计 ， 这 里 仍然 能 够 概述 Apache 程序 的 内 部 设计 。 一般 来 讲 ， Apache 
是 一 种 面向 连接 的 无 状态 HTTP 协议 绑 定 到 端口 80 的 并 发 预 派生 (preforked) 实现 。 通 过 将 cookies 在 
入 到 HTTP 消息 ，Apache 还 支持 长 期 的 状态 

框图 

Apache 服务 器 程序 的 主要 组 件 ， 在 本 质 上 是 层次 化 的 ， 可 以 分 为 三 个 部 分 : 1) 服务 器 进程 初始 
化 ; 2) 主 服务 器 ; 3) 取决 于 实现 的 工作 者 进程 或 工作 者 线程 ， 如 图 6-27 所 示 。 我 们 将 根据 图 6-29 中 
的 处 理 流程 来 描述 它们 。 接 下 来 ， 就 让 我 们 复习 在 设计 该 软件 时 具有 重要 意义 的 “ 池 ” 概 念 

se 

普通 的 池 概 念 作 为 一 组 线程 或 进程 一 样 ， 在 Apache 内 存 资 源 中 它 也 是 作为 池 来 操作 的 ， 每 个 池 
Ia 然而， 在 池 中 分 配 块 时 ， 有 必要 在 合适 的 时 间 清 理 池 以 防 
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图 6-27 Apache 的 内 部 结构 
止 程序 忘记 释放 内 存 。 为 了 确保 块 的 正确 释放 ， 支 持 许多 内 置 的 带 有 不 同 生 存 时 间 的 池 ， 如 图 6-28 所 
示 。 池 还 包括 子 池 的 链表 。 而 池 pglobal 在 整个 服务 器 的 运行 时 间 中 存在 ，pconf 、plog 和 ptrans 
池 仅 在 服务 器 重新 启动 时 才 会 存在 。 类 似 的 生存 时 间 规 则 适用 于 pchild ( 子 进程 工作 者 进程 /线程 
process/thread) 、pconn (连接 ) 和 preq (请 求 ) 。 可 以 通过 图 6-29 中 apr pool _ create() 创 建 池 ， 
这 里 将 它 指 定 为 newpool 的 父 池 。 根 父 池 pglobal 在 服务 器 启动 时 自动 创建 以 便于 子 池 在 需要 时 可 
以 随时 启动 ( 即 当 新 的 连接 建立 时 ， 新 的 请 求 到 达 时 等 ) 。 
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apr_ pool create(newpool. parent) 
图 6-28 Apache 中 池 的 层次 
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[server/mpm/worker/worker.c] 
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ap_read config0 
[include/http_config.h] 
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ap_mpm rn0 
[servermprn/worker] 








bs i ks 1 
重新 启动 请 求 关闭 信号 。 一、 ap_reclaim_child_processes0 
(restart_pending=]1) (shutdown_pending) Te EE [server/mpm,_common.c] 





destroy_and_exit_process 


图 6-29 Apache Web 服务 器 的 内 部 
算法 的 实现 
现在 ， 图 6-29 中 Apache 的 处 理 流程 。 服 务 器 的 启动 是 通过 apt pronass 由 完 点 网 。 补 
次 使 用 时 它 创 建 一 个 进程 池 。 然 后 ap_setup prelinked modules () 初 始 化 初始 操作 中 所 涉及 的 模块 
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.apr Doel_ create () 创 建 了 上 述 提 到 的 各 种 资源 池 后 ， 服 务 器 进程 的 初始 化 就 完成 了 。 接 下 来 
ap read config 处 理 命令 行 传递 的 指令 ， 并 递归 地 在 相关 子 目 录 中 阅读 相关 配置 文件 

在 实现 多 处 理 模 块 (MPM) 中 的 一 个 重要 里 程 碑 就 是 调用 ap mpm run () 启动 一 个 进程 作为 主 服 
务 器 。 支 持 两 种 类 型 的 MPM: 预 派生 (prefork) 和 工作 者 (worker)。 预 派生 机 制 实现 一 种 非 线 程 的 
预 派生 的 Web 服务 器 ， 其 中 将 派生 出 预先 设 定 数量 的 进程 以 便 响 应 式 地 服务 到 达 的 请 求 它 也 是 隔离 
每 个 请 求 的 最 好 MPM， 这 样 单个 请 求 的 问题 不 会 影响 任何 其 他 的 请 求 ， 但 是 ， 这 种 MPM 缺乏 可 扩展 
性 并 且 最 好 用 在 不 能 很 好 支持 线程 库 的 老 操作 系统 中 ， 现 代 操 作 系 统 ， 如 Linux 和 FreeBSD 都 很 好 地 配 
置 了 线程 库 ， 因 此 不 存在 这 个 问题 ， 

了 弥补 预 派生 MPM 的 缺点 ， 工 作者 MPM 实现 一 种 混合 的 多 线程 、 多 进程 的 服务 器 。 与 预 派生 
机 制 相 类 似 ， 许 多 进程 都 是 预 派生 的 ， 但 多 个 线程 在 每 个 进程 中 进一步 预先 调用 。 与 纯粹 的 基于 进程 
的 服务 器 相 比 ， 使 用 线程 可 以 用 更 少 的 系统 资源 来 服务 大 量 的 请 求 。 然 而， 工作 者 MPM 通过 运行 多 个 
进程 ， 每 个 进程 带 有 很 多 线程 ， 从 而 仍然 保留 基于 进程 的 许多 稳定 性 。 因此， 在 下 面 的 段落 中 我 们 将 
使 用 工作 者 MPM ， 虽 然 server/mpm/prefork/ 目 录 下 的 类 似 程序 也 可 以 用 于 预 派生 MPM 

在 ap_ mpm run() 内 ， 通过 重复 startup children 中 的 make child() 函数 调用 server main 
_loop () 来 产生 预 置 数量 的 子 服务 器 进程 。 根 据 选 择 的 多 处 理 策 略 ， 每 个 子 服务 器 可 能 需要 另 一 个 初 
始 化 阶段 以 便 访 问 正 常 操作 所 需要 的 资源 ， engin 这 可 以 通过 调用 make child() 中 
的 child main() 来 完成 。 如 图 6-30 所 示 ， 通 过 apr run child init() 它 启动 环境 设置 ， 如 子 服 务 
器 的 关键 部 分 ， 然 后 通过 apr thread create () 创建 预定 数量 的 线程 ， 随 后 调用 start threads 
() 。 start threads() 处理 两 种 类 型 线程 的 创建 create listener _ thread () 函数 创建 监听 线程 
以 便 监 听 新 的 连接 请 求 ; 而 worker thread () 创 建 工作 者 线程 ， 它 通过 proress. socket ( ) 和 ap 
process_connection () 处理 套 接 字 。 注意 ， 不 创建 监听 线程 除非 存在 多 个 工作 者 线程 。 这 种 思想 可 
以 用 一 个 简单 的 比喻 来 解释 : 一 个 餐厅 在 服务 人 (监听 线程 ) 可 以 开始 接受 客户 的 订单 之 
前 ， 需 要 确定 厨师 (工作 者 线程 ) 已 经 准备 好 。 因 此 ， 有 必要 不 时 地 检查 工作 者 线程 的 可 用 性 ， 在 需 
要 的 时 候 还 要 补充 线程 池 。 


make_child() [server/mpm/worker.c]| 













child_main() [server/mpm/worker.c] 





apr_thread_create() 
[srclib\apr\threadproc\unix\thread, ， 










start_threads() [server/mpm/worker.c] 









worker_thread() | create_listener_threadO 
[server/mpm/worker.c] Eserver/mpm/worker.c] 






~ process_socketO i 
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图 6-30 make _child(0 中 的 内 部 情况 


在 子 服务 器 忙于 处 理 请 求 时 ， 图 6-29 中 执行 server main loop () 的 主 服务 器 在 创建 服务 器 后 
就 进入 perform idle server maintenance () ， 寻 找 将 死亡 (SERVER GRACEFUL 状态 ， 这 意味 
着 正常 关机 ) 和 已 经 死亡 的 (SERVER DEAD 状态 ) 子 服务 器 .通过 监 ie 
Apache 就 可 以 知道 是 否 创建 更 多 的 服务 器 。 最后， 如 果 ap mpm run () 捕获 了 一 个 关机 人 信号， 那么 
服务 器 就 用 ap reclaim child processes () 开 始 回收 所 有 的 子 服务 器 

练习 

1) 找到 实现 预 派生 的 ,c 文件 和 代码 行 . 何 时 调用 预 派生 ? 
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2) 找到 实现 cookie 一 致 性 的 .ec 文件 和 代码 行 ， 
3) 找到 实现 HTTP 请 求 处 理 和 响应 准备 的 .c 文件 和 代码 行 。 


性 能 问题 : Web 服务 器 的 吞吐 量 和 延迟 

图 6-31 显示 了 Apache 网 络 服务 器 上 的 HTTP 请 求 处 理 的 调用 图 ap run create connection () 
为 到 达 的 请 求 分 配 并 初始 化 数据 结构 ，ap read request () 解析 请 求 ， 然 后 ap_process request 
internal () 检 查 授 权 ，。 为 了 应 答 请 求 ，ap invoke handler () 调 用 内 容 发 生 器 准备 响应 数据 ，check _ 
pipeline flush () 完 成 任何 延迟 的 响应 ，ap run log transaction () 将 有 关连 接 的 数据 记录 在 日 志 
中 。 最 后 ap lingering close () 关 闭 连接 并 清理 数据 结构 。 


接受 请 求 ap_Tun create connection() ap_read request() 


-( ) 创建 连接 


check pipeine flush() ap_invoke handler() 



























we 调用 处 理 程序 进程 请 求 


ap_process_reduest_internal() 





关闭 连接 


ap_lingering_ closel ) 





上 日志 事务 


ap_run_ log transaction() 





图 6-31 在 Apache Web 服务 器 中 的 HTTP 请 求 处 理 
图 6-32 说 明 每 个 函数 处 理 HTTP 请 求 所 花费 的 时 间 。 最 引 人 注 目的 现象 是 ， 花 费 在 ap invoke 
handler () 上 的 时 间 随 着 文件 的 大 小 增加 而 增加 。 在 本 实验 中 ,将 HTTP 响应 配置 成 静态 的 ， 即 在 磁 
盘 上 的 网 页 响应 ， 因 此 ap invoke handler () 调用 的 内 容 发 生 器 的 任务 是 从 磁盘 上 读 取 网 页 
然后 将 文件 的 内 容 传 给 给 客户 端 ， 如 果 在 传输 之 前 需要 将 所 有 文件 从 磁盘 读 取 到 用 户 室 间 内 存 中 ， 轨 
么 这 将 是 一 个 非常 复杂 耗 时 的 任务 。 
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Web 页 面 大 小 ( 字 节 ) 
图 6-32 在 HTTP 请 求 处 理 中 主 函数 的 延迟 
Linux 提供 了 sendfile () 系统 调用 以 便 加 快 数 据 复制 任务 ，ap_invoke_handler () 利用 系统 调 川 
生成 HTTP 响应 。sendfile () 的 原型 是 ssize t sendfile (int out fd, int in fd, off 七 * 
offset，size t count), 通过 这 些 Linux 内 核 直接 从 一 个 文件 描述 符 〈 如 磁盘 上 的 文件 ) ， 复 制 到 其 
他 的 文件 描述 符 ( 如 套 接 字 )， 而 无 需 用 户 空间 和 内 核 空间 之 间 频 繁 的 上 下 文 切换 。 此 功能 称 为 零 复 
制 。 每 次 调用 它 ，sendfile () 都 复制 文件 的 一 部 分 ， 其 大 小 取决 于 文件 系统 的 结构 ， 因 此 在 完成 文件 
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复制 之 前 需要 多 次 调用 sendfile ()。 表 6-19 列 出 调用 sendfile () 发 送 网 页 所 需要 的 时 间 。 当 Web 
网 页 增加 时 ，sendfile () 增 长 消耗 的 ap_ invoke ”handler () 的 执行 时 间 会 增长 。 只 有 35% 的 ap 
”invoke handler () 的 执行 时 间 花 费 在 sendfile () 发送 1 KB 网 页 返回 到 客户 端 上 ， 而 当 网 页 的 
大 小 是 1024 KB 时 它 就 变 为 87% 


表 6-19 sendfile() 与 ap invoke handler() 的 比例 








文件 大 小 1 KB 4KB 16 KB 64 KB 256 KB 1024 KB 
调用 sendfile () 的 次 数 1 1 1 2 7 15 
sendfile() 的 总 执行 时 间 (ps) 37 3 42 78 215 $27 





senafile() 与 ap invoke 


hanaler () 的 时 间 比 例 




















35% 38% 40% 33% 77% 87% 


6.5 文件 传输 协议 

作为 最 早 的 互联 网 应 用 之 一 ， 文 件 传输 协议 (FTP) 并 不 是 像 听 起 来 那么 简单 。 事实 上 ， 它 具有 
-种 独特 的 执行 带 外 信 令 的 双 连 接 操 作 模 型 ， 它 将 命令 /应 答 和 用 户 数据 分 别 在 单独 的 控制 和 数据 连接 
上 传输 。 大 多 数 其 他 的 应 用 程序 利用 带 内 信 令 运行 ， 控 制 和 数据 会 经 过 相同 的 连接 。 大概 与 此 唯一 类 
似 的 就 是 PPP， 它 经 常 发 送 大量 的 UDP 分 段 作 为 查询 /响应 并 为 实时 数据 传输 建立 TCP 连接 。 本 节 说 
明 这 种 环 手 的 双 连 接 操作 模型 以 及 FTP 服务 器 如 何 从 主动 模式 更 改 为 被 动 模式 以 便 能 够 与 防火 墙 或 
NAT 的 后 面 设 备 也 能 建立 连接 。 还 会 介绍 FTP 协议 信息 。 我 们 选择 wU-ftp 作为 开源 实现 的 例子 。 
6.5.1 简介 

几 十 年 前 ， 人 们 编写 程序 并 将 它们 保存 在 磁带 或 磁盘 上 。 为 了 在 远程 机 器 上 运行 程序 ， 所 有 的 磁 
党 和 磁盘 必须 被 装运 并 加 载 到 那 台 机 器 上 ， 这 通常 是 不 方便 的 和 耗费 时 间 的 。 为 了 解决 这 种 在 磁带 和 
磁盘 上 传输 文件 的 低 效率 ， 文 件 传输 协议 (FTP) 允许 用 户 高 效 、 可 靠 地 通过 互联 网 从 一 台 主 机 向 另 
一 台 主 机 传输 文件 。FTP 的 另 一 个 优点 是 数据 复制 ， 这 能 够 实现 较 大 规模 的 数据 备份 。1971 年 FTP 在 
RFC 172 中 首次 提出 ， 后 来 由 于 出 现 了 RFC 265 、354 、542 、765 而 被 废弃 了 ，1985 年 在 RFC 959 中 被 
标准 化 。2007 年 RFC 3659 是 对 FTP 扩展 的 最 新 更 新 。 

像 其 他 许多 网 络 应 用 一 样 ，FTP 运行 在 客户 端 /服务 器 模型 上 并 在 TCP 上 运行 ， 因 此 保证 了 可 靠 的 
点 到 点 连接 。FTP 提供 了 两 种 类 型 访问 : 认证 和 匿名 。 前 者 为 了 用 户 认证 需要 账号 /密码 对 ; 而 后 者 通 
党 是 无 限制 的 ， 虽 然 出 于 管理 的 考虑 可 能 禁止 了 一 些 源 下 地 址 。 医 名 用 户 所 要 做 的 就 是 以 “anony- 
mous”( 拱 名 ) 或 “ftp” 登 录 ， 并 输入 用 户 的 电子 邮件 作为 密码 ， 在 许多 情况 下 不 进行 严格 的 检查 。 

例如 ， 如 果 你 想 要 通过 FTP 从 另 一 所 大 学 下 载 文件 ,那么 你 就 需要 先 登录 到 本 地 计算 机 中 。 除 非 
尔 使 用 鞭 名 FTP， 和 否则 你 还 需要 一 个 登录 名 和 密码 才能 访问 远程 FTP 服务 器 上 你 的 账户 进行 文件 下 载 
FTP 会 话 包括 5 个 主要 步骤 : 

1) 连接 或 登录 到 下 载 (或 上 传 ) 目标 文件 所 在 的 计算 机 。 

2) 调用 FTP 客户 端 程序 

3) 连接 到 文件 下 载 (或 上 传 ) 的 远程 FTP 服务 器 。 

4) 提供 登录 到 远程 服务 器 上 的 用 户 名 和 密码 

5) 向 FTP 服务 器 发 出 一 系列 命令 查看 和 传输 目标 文件 。 

FTP 客户 端 应 用 程序 可 以 运行 在 类 UNIX 或 Windows 系统 上 。FTP 服务 器 网 站 一 般 支持 基本 的 命 
令 ， 如 表 6-20 所 示 

当然 也 可 以 使 用 Web 浏览 器 发 起 FTP 会 话 。 例 如 ， 在 匿名 模式 ， 如 果 你 在 浏览 器 中 的 URL 字段 


ftp://ftp.cs.nctu.edu.tw 





表 6-20 FTP 用户 命令 




























命 令 描 述 
OPEN 连接 到 远程 主机 RENAME 重 命名 远程 E 机 上 的 文件 
CAT 查看 远程 主机 上 的 文件 RM 删除 远程 主机 上 的 文件 

| 到 回 远程 主机 上 的 文件 | 终止 FTP 会 话 








如 果 该 网 站 允许 茵 名 登录 ， 浏 览 融 就 会 自动 地 让 你 以 匿名 用 户 登 录 到 FTP 网 站 。 在 认证 模式 ， 在 URL 
字段 中 的 登录 格式 为 

ftp://userl@ftp.cs.nctu.edu.tw 
这 意味 着 用 户 以 “userl1 ”登录 ftp. eis. nectu. edu. tw。 然 后 就 会 出 现 用 于 输入 密码 的 输入 窗口 。 


6. 5.2 双 连 接 操作 模型 : 带 外 信 令 

FTP 客户 端 和 服务 器 之 间 的 通信 采用 两 个 单独 的 连接 ， 服 务 器 的 控制 连接 监听 TCP 端口 21 ， 服 务 
带 的 数据 连接 监听 TCP 端口 20。 顾名思义 ， 控 制 连接 处 理 命令 、 参 数 、 应 答 、 错 误 恢复 标记 的 交换 ， 
而 数据 连接 专门 用 于 文件 的 传输 。 前 者 在 整个 FTP 会 话 期 间 持 续 存 在 ， 而 后 考 则 根据 需要 创建 和 删除 ， 
与 大 多 数 其 他 应 用 程序 将 控制 和 数据 消息 混合 在 一 起 并 通过 同一 连接 传输 〈 即 带 内 信和 令 方式 ) 不 同 ， 
这 种 双 连 接 机 制 通常 称 为 带 外 信 令 。 如 图 6-33 所 示 ，FTP 会 话 过 程 详 述 如 下 。 











控制 连接 〈 由 客户 端 发 起 ) 




















FTP 命令 
“PORT hl.h2.h3.h4.pl.p2™ 监听 端口 
ee | i se 
i FIP 应 答 
文件 系统 瞧 听 并 。 一 文件 系统 
ed 
客户 端 服务 器 





wen (由 服 sm | 





图 6-33 ”FTP 的 基本 操作 模型 

在 控制 连接 建立 并 完成 认证 过 程 后 ， 客 户 端 向 服务 器 发 出 一 个 FTP 请 求 ，PORT hl，h2，nh3， 
h4，pl，p2,“ 你 能 不 能 给 我 建立 一 个 到 人 Pp 地 址 hl. h2. h3. h4 于 的 端口 号 plp2 的 数据 连接 ?” 并 监听 
该 地 址 的 指定 端口 。 需 要 注意 的 是 ，hl ~ h4 和 pl、p2 是 十 六 进 制 。 然 后 服务 器 用 适当 的 状态 代码 回 
答 ， 以 确认 客户 端 。 下 一 步 ， 客 户 端 就 可 以 发 出 命令 进行 监听 、 下 载 、 添 加 或 给 服务 器 的 文件 系统 上 
传 文件 。 服 务 器 将 启动 一 个 用 于 文件 传输 的 数据 连接 。 请 注意 ， 因 为 这 些 命令 中 的 每 一 个 都 包括 一 个 
独立 的 数据 连接 ， 所 以 PORT 命令 应 该 总 是 在 它们 之 前 发 布 。 所 有 操作 都 完成 后 ， 客 户 端 通过 控制 连 
接 向 服务 器 发 送 “ouiT” 以 便 终止 FTP 会 话 。 | 

有 时 发 出 FTP 命令 的 主机 并 不 一 定 是 客户 端 或 服务 器 ， 也 就 是 说 ， 它 可 能 只 是 客户 端 和 服务 器 之 
间 的 代理 ， 通 过 FTP 命令 安排 它们 之 间 的 数据 连接 。 例 如 ， 可 以 使 用 该 模型 ， 在 文件 服务 器 监听 中 央 
控制 器 指定 端口 的 互 备 份 系统 中 ， 等 待 数据 传输 的 命令 。 


历史 演变 : 为 什么 在 FTP 中 使 用 带 外 信念 
由 于 FTP 是 互联 网 历史 上 第 二 个 最 古老 的 应 用 ，telnet 仅仅 提前 短 短 的 几 天 出 现 ， 所 以 当时 FTP 为 
什么 采用 带 外 信 令 的 确切 原因 现在 无 从 得 知 。 但 是 对 此 有 一 个 共识 ， 这 有 点 儿 有 关 历 史 研 究 性 的 
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文件 传输 服务 的 最 初 设计 是 使 用 数据 传输 协议 (DTP) 作为 数据 平面 协议 ,而 FTP 是 仅 负 责 控 制 
连接 。IP 创建 后 ，DTP 被 TCP 取代 。 不 是 将 控制 和 数据 连接 合并 成 一 个 TCP 连接， 而 是 FTP 继续 使 用 
双 连 接 机 制 最 大 限度 地 减少 对 已 有 实现 的 影响 

令 人 惊讶 的 是 ， 这 种 带 外 信 令 还 提高 了 FTP 的 性 能 。 它 避免 了 在 单 连接 情况 下 区 分 控制 和 数据 分 
段 的 额外 工作 。 也 就 是 说 ， 通 过 专用 的 数据 连接 传输 文件 ， 避 免 了 处 理 头 部 或 控制 信息 的 额外 开销 
另 一 个 优点 是 ， 在 数据 连接 上 长 时 间 文 件 传输 期 间 ， 控 制 连接 仍然 可 以 用 于 目录 查找 或 者 经 过 另外 一 
个 数据 连接 发 起 了 另 一 次 文件 传输 ， 此外， 两 种 连接 模型 ,还 能 使 用 一 个 如 上 所 述 的 中 间 控 制 主机 。 

主动 模式 与 被 动 模式 

在 前 面 的 模型 中 ， 控 制 连 接 是 由 客户 端 发 起 的 ， 而 数据 连接 是 由 服务 器 发 起 的 。 从 服务 器 的 角度 ， 
这 种 发 起 称 为 主动 模式 。 然 而 ， 还 有 一 种 方案 称 为 被 动 模式 ， 其 中 两 个 连接 都 是 由 客户 端 发 起 的 。 

如 图 6-34 所 示 ， 当 处 于 主动 模式 的 服务 器 收 到 FTP 请 求 时 ， 将 连接 到 客户 端 。 然 而 ， 如 果 客 户 端 
位 于 NAT 或 防火 墙 之 后 ,那么 来 自 服 务 吉 的 数据 连接 就 可 能 被 阻塞 ， 当 检测 到 这 种 阻塞 问题 时 ， 无 论 
用 户 手动 还 是 客户 端 应 用 程序 月 动 进行 ， 客 户 端 都 会 通过 发 出 PASV 命令 再 次 请 求 服务 器 的 被 动 FTP 
模式 ， 它 请 求 服 务 器 监听 特定 端口 上 上 的 数据 连接 。 如 果 请 求 得 到 服务 器 许可 ,那么 服务 器 就 通过 发 出 
带 有 IP 地 址 和 端口 号 的 PORT 确认 客户 端 ， 其 中 端口 号 不 是 20 而 是 目前 正在 监听 的 端口 号 。 现 在 ， 双 
方 都 进入 被 动 横 式 。 然后 客户 端 雪 始 化 服务 器 的 数据 连接 ， 并 开始 文件 传输 。 


主动 模式 


: 青 求 (在 主机 1 的 端口 P 上 连接 我 ) 


发 起 一 个 数据 连接 














客户 端 。 服务 器 
控制 防火 墙 
数据 被 动 模式 
本 请 求 〈 族 求 服务 器 监听 ) ___ 
四 应 答 (监听 主机 H 的 端口 P) 
| 发 起 一 个 数据 连接 
客户 端 :| 服务 器 


防火 二 
图 6-34 主动 模式 与 被 动 模式 


6. 5.3 FTP 协议 消息 

表 6-21 列 出 了 主要 的 FTP 命令 。 注意 ， 这 里 的 命令 与 表 6-20 中 为 最 终 用 户 站 点 所 支持 的 命令 不 
同 ， 这 些 是 在 RFC 中 定义 的 FTP 协议 消息 。 服 务 占 将 用 户 命令 映射 为 执行 实际 操作 的 一 个 或 多 个 FTP 
命令 。 例 如 ， 当 我 们 输入 用 户 命令 

rename path of source file path of dest file， 
服务 带 将 它 映 射 为 以 下 两 个 操作 


RNFR path of source file (ReNameFRom) 
RNTO path of dest file (ReNameTO) 


来 完成 文件 的 重 命名 

FTP 服务 器 总 是 发 送 一 个 答复 ， 以 便 确 认 窜 户 端 先前 发 出 命令 的 执行 状态 。 应 答 代 码 有 5 个 功能 
外 ， 如 表 6-22 所 示 ， 利 用 第 二 个 数字 指示 句法 错误 、 控 制 状态 和 数据 连接 等 ， 利 用 第 二 个 数字 表示 在 
第 2 个 数字 范围 内 状态 的 细 粒 度 等 级 。 


应 月 改 



























































表 6-21 主要 的 FTP 命令 
帝 ” 稚 描 述 类 型 
USER 发 送 用 户 名 字 访问 控制 
PASS 发 遂 日 邻 访问 控制 
PORT 发 送 客户 端的 IP 和 端口 到 数据 查询 的 (服务 器 ) 传输 参数 
PASV 通知 服务 器 监听 数据 端口 而 不 是 发 起 数据 连接 传输 参数 
RETR 请 求 服务 器 将 请 求 文件 的 副本 传送 给 客户 机 文件 服务 
STOR 使 服务 咒 接收 和 取 回 数据 并 将 它 存储 为 文件 文件 服务 
RNFR 指定 重 命名 源 文件 的 路 径 文件 服务 
RNTO 指定 重 命 名 目的 地 文件 的 路 径 文件 服务 
ABOR 通知 服务 器 终止 以 前 的 命令 和 相应 的 数据 传输 文件 服务 
表 6-22 FTP 应 答 的 5 种 类 型 
应 答 描 述 类 型 
lyz 发 起 的 请 求 行动 ， 在 进行 新 命令 之 前 期 待 男 一 个 应 答 肯定 的 初步 答复 
2yz 请 求 的 行动 已 经 成 功 完成 肯定 的 完成 答复 
命令 已 经 被 接收 ， 但 是 请 求 的 行动 being held， 等 待 来 白 男 一 命 We 
3yz 今 的 进一步 消息 肯定 的 中 间 答 复 
4yz 命令 没有 被 接收 ， 请 求 的 行动 没有 发 生 ， 行 动 可 能 被 再 次 请 求 暂时 否定 完成 答复 
除了 错误 状态 是 永久 的 外 ,与 4yz 柑 类 似 、 因 此 行动 不 色 持 i 
gy 除了 错误 状态 是 永久 的 外 , 与 4yz 相 类 似 、 因 此 行动 不 能 被 再 永久 否定 完成 应 答 


图 6-35 是 一 个 FTP 会 话 的 例子 .我 们 以 用 户 “www” 登 录 并 检索 一 个 名 为 “test” 的 文件 。 窜 户 
端 要 求 服务 器 与 它 连 接 到 140. 113. 189. 29 的 两 个 不 同 端口 ， 即 4135 (十 六 进 制 为 1027) 和 4145 (十 


次 请 求 





六 进 制 为 1031) ， 分 别 用 于 检索 目录 清单 和 文件 “test”。 








STATUS:> Connecting to www.cis.nctu.edu.tw (ip = 140.113.166.122) 
STATUS:> Socket connected. Waiting for welcome message... 220 


Www.cis.nctu.edu.tw FTP server (Version wu-2.6.0(1) Mon Feb 28 10:30:36 EST 


2000) ready. 
COMMANDS:> USER www 
331 Password required for www. 
PASS 和 
230 User www logged in . 
TYPEI 
200 Type set to |. 
REST 100 


COMMANDS:> 
ICOMMANDS:> 


ICOMMANDS:> 


| 350 Restarting at 100. Send STORE or RETRIEVE to initiate transfer. 


ICOMMANDS:> REST0 


COMMANDS:> pwd 

257 “/home/www” is current directory. 
TYPEA 

200 Type set to A. 


COMMANDS:> 


COMMANDS:> 
200 PORT command successful. 

COMMANDS:> LIST 全 查 目录 列表 

| 准备 打下 数据 连接 

而 入 和 list of files.... 


COMMANDS:> JJYPEI 
200 Type set to |. 

PORT 140,113,189,29,10,31 
200 PORT command successful. 


RETRtest 


ICOMMANDS:> 





|COMMANDS:> 全 得 文件 “test” 


PORT 140,113,189,29,10,27 < 告诉 服务 吕 连 接 到 哪里 


350 Restarting at 0. Send STORE or RETRIEVE to initiate transfer 


150 Opening ASCI mode data connection for /bin/ls. 一 文件 状态 良好 


| 150 Opening BINARY mode data connection for test (5112 bytes). | 


-四 - 区 





图 6-35 一 个 FTP 会 话 的 例子 
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带 有 检查 点 的 重新 启动 传输 

到 目前 为 止 ， 我 们 已 经 介绍 了 FTP 会 话 的 初始 化 、 命 令 和 应 答 ，FTP 还 实现 了 一 种 重新 启动 机 制 ， 
用 于 在 遇 到 一 个 断 开 的 路 径 和 死机 或 进程 等 错误 时 的 恢复 .主要 思想 是 使 用 “标记 ” (marker) ， 其 中 
包括 已 经 传输 文件 的 位 数 

在 文件 传输 期 间 ， 发 送 者 在 数据 流 中 方便 的 地 方 插入 一 个 标记 。 一 旦 接收 者 收 到 标记 后 ， 就 将 以 
前 收 到 的 所 有 数据 都 写 人 和 磁盘， 在 本 地 文件 系统 中 的 相应 位 置 做 标记 ， 并 将 发 送 者 和 接收 者 两 者 最 新 
标记 的 位 置 应 答 给 用 户 ， 即 控制 主机 ， 它 可 与 也 可 以 不 与 发 送 者 在 同一 台 机 器 上 。 当 服务 发 生 故 障 时 ， 
用 户 就 可 以 发 出 带 有 以 前 标记 信息 的 重启 命令 重新 局 动 在 上 次 传输 检查 点 的 发 送 者 。 


开源 实现 6.4: wu-ftpd 

概述 

wu-ftpd 是 最 流行 的 FTP 守护 程序 之 一 。 最 早 由 华盛顿 大 学 开发 ， 它 目前 由 WU-FTPD 开发 组 
(http: AAwww. wu-ftpd. org/) 维护 。 

除了 前 面 所 述 的 基本 文件 传输 功能 外 ，wu-ftpd 还 附带 提供 了 有 用 的 工具 ， 如 虚拟 FIP 服务 器 和 
即时 (在 需要 时 创建 ) 压缩 。 这 些 工具 没有 在 RFC 中 定义 ， 但 确实 方便 管理 工作 ， 提 高 了 文件 传输 的 
效率 。 总 之 ，wu-ftpd 是 一 个 绑 定 到 端口 20 和 21 的 面向 连接 的 、 有 状态 的 FTP 协议 的 并 发 实现 ， 

算法 实现 

在 wu-ftpd 工作 中 有 两 个 主要 阶段 : 服务 初始 化 发 起 阶段 和 命令 接受 /执行 阶段 ”如 图 6-36 所 示 ， 
wu-ftpd 实现 了 一 种 典型 的 派生 子 进程 服务 于 客户 端的 并 发 服务 器 模型 。 


启动 带 有 选项 
的 ftp 服务 器 


读 取 ACL 文 件 
独立 的 ? 


是 
派生 关闭 
( 父 进程 退出 ) 











否 (under(x)inetd) 



















反 向 DNS 检查 


和 解析 并 执行 命令 


循环 直到 接收 到 终止 信号 为 止 
图 6-36 wu-ftpg 内 部 的 执行 流 
在 服务 初始 化 阶段 ， 我 们 首先 执行 “ftpd” 命 令 ， 无 论 是 从 shell (命令 行 解释 器 ) 还 是 从 
(xX) inetd 都 会 带 有 一 些 选项 来 描述 其 行为 以 便 启 动 服务 器 。 例 如， 选项 -T 指定 空闲 连接 超时 限制 
以 避免 系统 资源 的 浪费 ; -了 指定 数据 端口 号 ， 当 服务 器 进程 的 所 有 者 没有 超级 用 户 特 权 ， 它 意味 着 
用 户 只 能 够 使 用 大 于 1024 的 端口 号 ， 而 不 是 默认 端口 20。 然 后 服务 器 将 ftpaccess 文件 中 的 访问 控 
制 列 表 读 到 内 存 中 ， 通 知 服务 器 有 关 其 访问 功能 的 设置 
读 取 了 主 配 置 后 ， 最 初 的 服务 器 进程 派生 一 个 新 的 进程 用 于 监听 新 请 求 的 独立 服务 器 ， 然 后 退出 
让 新 创建 的 服务 器 进程 单独 运行 。 一 旦 接受 请 求 后 ， 服 务 器 派生 一 个 处 理 进 程 处 理 FTP 会 话 中 的 后 续 
步骤 。 如 果 服 务 器 不 是 作为 一 个 独立 的 服务 器 运行 ， 那 么 这 就 意味 着 服务 器 被 (x) inetd 调用 。 在 服 
务 初 始 化 阶段 的 结束 是 其 他 初始 化 工作 ， 用 于 反 向 DNS 检查 客户 端 ， 文 件 转换 检查 ， 以 及 虚拟 主机 分 
配 以 便 将 对 不 同 目的 地 站 点 名 称 的 请 求 映射 到 相应 的 配置 等 。 





没有 接 


受 请 求 ? 
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在 第 二 阶段 ，FTP 命令 解析 和 执行 了 的 主要 任务 是 是 通过 使 用 Yacc (Yet Another Compiler-Compiler， 编 
译 器 代码 生成 器 ) 完成 的 。Yacc 用 户 指 定 FTP 输入 的 结构 ， 以 及 当 结 构 被 识别 时 要 调用 的 代码 段 
Yacc 利用 FTP 命令 的 结构 输入 ， 将 这 种 规范 转换 成 在 编译 时 间 处 理 输入 的 子 进 程 

虚拟 FTP 服务 器 

当 在 单 台 机 器 上 服务 多 个 域 时 ， 通常 采用 虚拟 FTP 服务器。 它们 允许 管理 员 配 置 系 统 ， 这 样 一 
个 用 户 连 接 到 ftp. sitel. com. tw 而 让 另 一 个 用 户 连 接 到 ftp. site2. com. tw。 每 个 用 户 得 到 自己 的 FTP 广 
告 和 目录 ， 即 使 它们 在 同一 台 机 器 的 相同 端口 上 ， 如 图 6-37 所 示 ， 这 可 以 通过 使 用 名 为 “ftpac- 
cess” 的 配置 文件 来 实现 ， 建 立 一 台 虚 拟 FTP 服务 器 需要 设置 4 个 基本 参数 : 服务 器 名 (或 IP)、 
根 目 录 、 欢 迎 消息 广告 和 传输 日 志 记 录 。， 一旦 收 到 一 个 请 求 ，FTP 守护 进程 就 将 请 求 中 的 目的 站 点 
名 与 ftpaccess 中 指定 的 规则 进行 匹配 ， 匹 配 的 请 求 被 接收 ， 然 后 就 像 普通 FTP 服务 器 一 样 进行 
处 理 


FTP 服 务 器 


客户 中 





ftp.sitel .com.tw 













每 全 虚拟 服务 器 
的 配置 文件 


ftp.site2.com.tw 


ttp.site3.com.tw 


# Virtual server setup for ftp.sitel.com.tw 
fipaccess 文 件 中 | virtual ftp.sitel.com.tw root /var/ftp/virtual/site1 
的 规则 片断 “| virtual ftp.sitel.com.tw banner /var/ftp/virtual/site 1/banner.msg 
virtual ftp.sitel.com.tw logfile /var/log/ftp/virtual/sitel/xferlog 





查找 ftpaccess 文 件 














图 6-37 虚拟 FTP 服务 器 的 连接 
即时 压缩 
因为 FTP 至 少 需要 两 个 协议 消息 Sr nd 所 以 我 们 可 以 很 容易 地 想象 当 
下 载 大 量 小 文件 时 它 将 如 何 影响 将 会 有 大 量 的 用 于 连接 建立 和 拆除 的 消息 。 为 了 弥补 这 个 缺 
点 ，wu-ftpd 提供 了 另 一 种 优秀 的 工具 ， 称 为 “即时 压缩 "， 即 服务 器 在 发 送 给 用 户 之 前 压缩 文件 
(目录 )。 图 6-38 是 一 个 例子 











Userynlin logged in. 
Logged in to wwwpc.cis.nctu.edu.tw. 
ncftp /home/ynlin > Is 


Ltar.gz Desktop/ ucd-snmp-4.2.1/ 
ncftp /home/ynlin > get ucd-snmp-4.2.Ltar.gz 
ucd-snmp-4.2.1tar.gz: 7393280 bytes 552.83 kB/s 


ncftp /home/ynlin >lls -I 
drwxr-xr-x 24 gis88559 gis88 3584 Oct 8 12:18 . 
drwxT-xr-xX 88 root gis88 2048 Sep 10 17:48 .. 
-TW-I---- ] gis88559 gis88 7393280 Oct 8 12:18 ucd-snmp-4.2.ltar.gz 
图 6-38 ” 带 有 即时 压缩 的 文件 下 载 

就 像 我 们 在 该 例子 中 所 见 ， 当 服务 器 上 没有 这 样 的 “tar-ball” ( 压缩 包 ) 客户 端 要 获取 的 文件 
“ucd-snmp -4.2.1， tar.gz”( 压 缩 的 tar 归档 文件 ) 而 只 有 一 个 目录 ucd-snmp-4. 2.1 时 ， 诀 窍 是 
服务 器 会 提取 文件 名 称 的 后 级， 并 根据 名 为 “ftpconversions” 的 配置 文件 中 指定 的 规则 执行 适当 
的 行动 。 在 这 种 情况 下 ， 被 调用 的 动作 就 是 对 给 定 文件 名 执行 “tar -zcf” 命 令 。 表 6-23 列 出 了 wu- 
ftpd 的 一 些 重要 配置 文件 
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表 6-23 ”wu-ftpd 的 4 个 重要 配置 文件 

















文件 名 字 描述 
flpacess 川 于 配 秆 ftp 守护 程序 的 操作 | 
eto 指定 检索 文件 的 后 缕 及 此 对 应 操作 
ftphosts | 几 于 拒绝 /允许 某 些 主 机 以 某 一 账户 登录 - 
ftppservers 列 出 虚拟 服务 融和 包含 他 们 自己 配置 文件 的 对 应 目录 
练习 
1. FTP 会 话 的 控制 和 数据 连接 的 并 发 处 理 是 如 何以 及 在 什么 进行 的 ? 它们 是 由 同一 个 进程 还 


是 由 两 个 进程 处 理 的 ? 
2. 找到 执行 主动 模式 和 被 动 模式 的 .c 文件 和 代码 行 ” 何 时 调用 被 动 模式 ? 


6.6 简单 网 络 管理 协议 
在 本 章 介 绍 的 所 有 应 用 程序 中 ,网 络 管理 是 唯一 一 个 不 是 为 普通 用 户 设计 的 应 用 程序 ， 事 实 | 
它 用 于 网 络 管理 员 进 行 远程 网 络 管理 。 我 们 首先 介绍 网 络 管理 的 概念 和 框架 。 然后， 我 们 介绍 用 计 赤 
示 被 管理 设备 状态 的 标准 化 管理 信息 库 (MIB) 和 用 于 访问 MIB 的 简单 网 络 管理 协议 (SNMP)。 通 过 
一 种 称 为 NET-SNMP 的 开源 实现 能 够 让 我 们 跟踪 它 的 操作 ， 以 便 更 好 地 理解 整个 体系 结构 


6.6.1 简介 

自从 互联 网 诞生 以 来 ， 人 们 一 直 澳 望 能 够 监控 和 控制 网 络 。 为 了 实现 这 个 目标 ， 许 多 小 工具 已 使 
用 多 年 。 例 如 ，ping、traceroute 和 netstat (参见 附录 D)， 其 中 前 两 个 是 基于 ICMP 的 ， 而 后 者 
是 通过 系统 调用 的 【如 icctl)， 即使 它们 能 够 满足 由 多 台 主 机 和 网 络 设 备 组 成 的 小 规模 的 网 络 环境 ， 
但 这 些 工 具 所 提供 的 信息 却 不 能 满足 大 型 网 络 的 网 络 管理 员 的 需求 。 他 们 要 求 的 是 一 个 更 加 通用 的 、 
er 以 方便 网 络 管理 工作 

就 是 简单 网 络 管理 协议 (SNMP) 的 作用 。 该 协议 的 思想 是 在 所 有 被 管理 设备 上 安装 代理 程 | 

Peete ried rad 管理 茵 程序 可 乙 效 入 和 更 新 设 z 备 的 管 吉本 总 。 管 理 信息 昌 在 标准 化 千 理 

息 库 (MIB) 的 管理 对 象 中 维护 。 这 些 就 提供 了 多 个 优点 。 首先 ， 标 准 化 MIB 和 SNMP 的 使 用 能 够 
支持 多 厂商 管 理 带 和 设备 之 间 的 互 操作 性 。 其 次 ,主要 由 于 程序 的 移植 造成 的 代理 开发 成 本 大 大 地 减 
少 了 ,同样 ， 可 以 为 网 络 管理 员 清 蜥 地 定义 管理 功能 ， 管 理 器 程序 开发 人 员 也 是 如 此 ， 因 此 用 被 管理 
设备 的 数量 表示 的 体系 结构 更 具 可 扩展 性 

M6 和 此 党 扩 且 本 的 了 BI 分别 室 玖 的 华 和 990 年 首次 定 湾 趣 EC 1066 和 EC 1J89 站 1989 
年 SNMP 首次 在 RFC 1098 中 提出 ， 称 为 SNMPv1， 它 得 到 了 积极 的 响应 用 于 集成 多 类 别 的 管理 对 象 和 
多 厂商 产品 之 问 的 互 操 作 性 。1993 年 提出 了 SNMP 的 第 2 个 版 本 ， 称 为 SNMPv2 ， 在 RFC 1441 中 提出 
以 增强 第 1 个 版 本 的 功能 。 最 后 ，1998 年 SNMPv3 在 RFC 2261 中 发 布 ， 解 决 了 第 1 个 版 本 中 讨论 过 的 
某 些 安全 附加 功能 。 所 有 这 3 个 版 本 的 SNMP 都 具有 相同 的 基本 结构 和 组 件 

网 络 管理 的 演变 还 要 继续 下 去 ,并且 要 归功 于 由 所 有 应 用 层 协议 所 产生 的 最 高 百分比 的 RFC 
网 络 管理 有 许多 其 他 的 补充 协议 和 MIB 建议 ， 如 具有 广泛 流量 测量 的 网 络 远程 监控 ( RMON) MIB 
于 1991 年 在 RFC 1271 中 定义 ， 它 的 增强 版 本 RMON2 于 1997 年 在 RFC 2021 中 定义 ， 最 近 提 出 的 用 
于 基于 IPv6 的 OSPFv3 的 MIB 于 2009 年 在 RFC 5643 中 定义 。 然而， 它们 超出 了 本 书 的 范围 ， 不 在 
此 讨论 。 


6. 6.2 体系 结构 框架 
SNMP 环境 通常 包含 5 个 基本 组 件 : 管理 工作 站 、 人 代理、 被 管理 对 象 、 被 管理 设备 和 管理 协议 “这 
些 纪 件 之 问 的 关系 如 图 6-39 所 示 
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管理 工作 站 


人 陷阱 或 响应 


| 物 询 或 请 求 
代理 和 被 和 
理 设备 在 同 

- 合 机 器 上 


主人 代理 





比 SNMP 更 加 简单 的 协议 
fT 代理。 2 访 2 F 
(被 管理 设备 ) MIB/ \MIB7 MIBJ 
图 6-39 SNMP 的 体系 结构 框架 

管理 工作 站 ”又 称 为 管理 器 ,负责 协 调 在 其 管 署 范 用 内 的 所 有 代理 。 它 定期 检查 每 个 代理 的 状态 ， 
并 恨 据 需要 在 询 或 设置 被 管理 对 象 的 值 

代理 ”作为 运行 在 管理 站 点 和 被 管理 对 象 之 问 的 被 管理 设备 上 的 中 间 件 ,代理 负责 执行 管理 站 点 
所 芝 求 的 网 络 管理 功能 。 

被 管 对 象 和 MIB 被 管 对 象 描述 被 管理 设备 某 一 方面 的 特点 。 例 子 包括 系统 正常 运行 时 间 、 已 收 
到 的 分 组 数量 ， 以 及 在 系统 中 活动 TCP 连接 的 数量 。MIB 是 形成 虚拟 信息 存储 的 被 管理 对 象 的 集合 

被 管 设 备 ”人 它 可 能 是 一 台 路 由 器 、 交 换 机 、 主 机 或 任何 安装 了 代理 和 MIB 的 设备 

管理 协议 ” 它 是 用 于 管理 工作 站 和 代理 之 间 传 达 信 息 的 常见 方法 

基于 轮 询 和 基于 陷阱 的 检测 

在 运行 SNMP 的 环境 中 有 三 种 基本 活动 : 获取 、 设 置 和 陷阱 。 前 两 种 用 于 管理 站 点 获取 /设置 代理 
中 对 象 的 值 ; 而 最 后 一 种 由 代理 使 用 ， 用 来 通知 某 些 事件 的 管理 工作 站 . 

由 于 SNMP 是 基于 UDP 的 ， 所 以 这 里 没有 持续 的 TCP 连接， 但 有 一 些 事 务 用 于 管理 站 点 以 便 了 解 
代理 的 健康 状况 。 在 代理 的 状态 检测 中 ,， 通 常会 看 到 两 种 方案 : 基于 轮 询 的 检测 和 基于 陷阱 的 检测 
在 基于 轮 询 检测 中 ， 管 理 站 点 周期 性 地 向 代理 发 送 查 询 消息 并 接收 代理 状态 的 响应 。 尽管 基于 轮 询 的 
金 测 直 观 、 简 单 ， 但 当 有 大 量 的 代理 监控 时 ， 利 用 这 种 方案 管理 站 点 就 会 成 为 瓶颈 。 

基于 陷阱 的 检测 就 是 为 了 避免 这 种 缺点 。 当 在 被 管理 对 象 上 -发 生 事件 时 在 这 种 检测 不 是 被 动 地 询 
问 ， 市 是 代理 会 主动 地 捕获 管理 站 点 。 事 件 驱 动 的 陷阱 能 够 减少 我 们 在 基于 轮 询 的 检测 中 看 到 的 不 必 
要 的 消息 。 在 大 多 数 情况 下 ， 当 重启 时 ， 管 理 站 点 只 检查 代理 以 便 有 一 张 所 有 代理 的 基本 图 

代理 服务 

除了 普通 管理 工作 站 和 代理 之 间 的 普通 关系 外 ， 代 理 服务 被 认为 是 SNMP 中 男 一 个 有 用 的 操作 方 
案 ， 对 于 简单 和 廉价 的 设备 ， 如 调制 解 调 器 、 集 线 器 和 网 桥 ， 只 是 为 了 与 SNMP 兼容 而 在 它们 上 实现 
整个 TCPXIP 协议 徐 (包括 UDP) 可 能 不 切合 实际 。 为 了 适应 那些 不 支持 SNMP 的 设备 ， 提 出 一 种 代理 
服务 的 概念 : 一 种 是 一 个 系统 在 另 一 个 系统 的 前 面 响应 协议 请 求 的 机 制 。 前 面 的 系统 称 为 主 代理 ， 而 
后 面 的 系统 是 子 代 理 。 如 图 6-39 所 示 ， 主 代理 不 用 任何 MIB 实现 ， 代 表 子 代理 处 理 从 管理 工作 站 来 的 
SNMP 请 求 。 所 有 主 代理 的 工作 吕 是 将 SNMP 请 求 转 换 为 某 些 子 代理 可 以 理解 的 非 SNMP 消息 。 虽 然 子 
代理 都 应 该 是 很 简单 的 ， 但 是 一 些 协议 〈 如 可 扩展 代理 (AgentX) 和 SNMP 复 用 (SMUX) ) 的 开发 ， 
都 是 用 于 增强 子 代理 


6.6.3 管理 信息 库 

MIB 可 以 看 做 一 个 树 状 的 虚拟 信息 存储 ， 尽 管 它 并 不 用 做 数据 库 来 存储 信息 。 其 实 它 只 是 一 个 列 出 
做 管理 对 象 的 规范 ,在 MIB 树 中 的 每 个 对 象 唯 一 地 由 一 个 对 象 标识 符 (OID) 来 标识 。 例 如 ， 图 6-40 显 
矢 了 了 下 联网 标准 MIB ( MIB-IT) 的 结构 ，IP 对象 组 由 OID 1.3.6.1.2.1.4 标 识 。 有 了 相关 的 OID ， 对 象 
迪 有 更 好 的 可 访问 性 。 只 有 MIB 树 中 的 leaf 对 象 是 OID 值 可 访问 的 ， 例如，system 组 下 的 叶子 节点 
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[3 
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对 象 sysUpTime。 因 此 ,访问 MIB 对 象 的 一 种 典型 情况 可 能 会 是 这 样 的 : 

1) 管理 站 点 向 它 所 查询 的 具有 特定 对 象 的 OID 的 代理 发 送 消 息 

2) 在 接 到 请 求 后 ， 代 理 首先 检查 对 象 是 否 存 在 ， 然 后 验 让 可 访问 性 。 如 果 行 动 失败 ， 代理 就 用 相 
应 的 错误 消息 响应 管理 站 点 ; 否则 ， 它 寻找 本 地 系统 中 文件 、 寄 存 右 或 计数 占 中 对 象 实例 的 对 应 值 

对 象 和 对 象 实例 

有 人 可 能 会 对 “对 象 ” 和 “对 象 实例 ”的 含义 感到 困惑 。 例 如 ， 人 们 认为 他 们 想 要 得 到 管理 信息 
的 对 象 ， 市 实际 上， 他 们 却 得 到 对 象 实例 。 对 象 有 两 个 届 性 ， 类 型 和 实例 。 对 象 类 地 为 我 们 提供 语法 
描述 和 对 象 属性 ， 而 对 象 实例 是 一 个 绑 定 到 特定 值 的 对 象 类 型 的 特定 实例 ,以 对 象 sysUpTime 为 例 加 
以 说 明 ， 对 象 类 型 说 明 系 统 正 常 运行 时 间 是 用 TimeTicks 测量 的 ， 并 且 对 于 所 有 访问 是 只 读 的 。 另 一 
方面 ， 对 象 实例 告诉 我 们 月 从 系统 上 次 重启 以 来 所 逝去 的 时 间 。 除 了 了 简单 的 对 象 外 ， 有 两 种 类 型 的 复 
合 对 象 : 标量 和 表格 。 标量 对 象 定义 了 一 种 单一 的 、 但 结构 化 的 对 象 实例 ， 而 表格 对 象 定义 了 在 一 张 
表 中 成 组 的 多 个 标量 对 象 实例 。 为 了 区 别 表格 对 象 下 的 标量 对 象 的 表达 ， 普 通 的 标量 使 用 带 有 一 个 额 
外 0 的 OID 对 象 . 


is0 (1) 


CC 


对 象 标识 符 136.12.14 
图 6-40 ”互联 网 标准 MIB: MIB-I 
如 今 ， 儿 乎 所 有 的 MIB 活动 都 发 生 的 ISO 分 支 的 部 分 ， 并 专用 于 对 象 标 识 符 1.3.6. 1 的 互联 网 社 
区 。 在 SNMP 中 采用 MIB 也 提供 了 可 扩展 性 ， 这 样 人 们 就 可 以 在 实验 的 和 私有 专用 的 分 支 下 建立 自己 
的 MIB。 前 者 是 用 于 标识 IETF 工作 组 设计 的 对 象 ， 这 此 对 家 一 旦 成 条 慰 淮 ， 它们 就 被 移 到 mgmt (2 ) 
子 树 下 。 在 私有 专用 分 支 的 正 下 方 有 一 个 称 为 企业 的 MIB 子 树 ， 这 是 为 网 络 设备 供应 商 保留 的 。 然 
而 ， 为 了 保证 互 操 作 性 ， 并 避免 来 自 不 同 供应 商 设备 OID 之 间 的 冲突 ， 建 议 一 定 要 向 互联 网 编号 分 配 
机 构 (IANA) 注册 MIB 对 象 。 
MIB-I 的 主要 贡献 是 对 象 组 “mib-2” 的 定义 ， 它 更 准确 地 描述 基于 TCPZ IP 互联 网 的 管理 。 我 们 
在 下 面 的 列表 中 总 结 了 MIB-I 的 每 个 对 象 组 
1) system 提供 有 关 被 管理 系统 的 一 般 信 息 。 例 如， 名 称 、 正 常 运行 时 间 和 系统 的 位 置 
2) interface 提供 每 个 物理 接口 的 配置 信息 和 统计 数据 。 例 如， 类 型 、 物 理 地 址 和 接口 的 
3) at 网络 地 址 和 物理 地 址 之 间 的 地 址 转换 。 然 而 ， 它 在 RFC 中 是 不 赞成 使 用 的 ， 并 且 只 有 网 
络 地 址 可 能 与 每 个 物理 地 址 相关 联 . 
4) ip ”有关 IP 在 本 地 系统 上 实现 和 运行 的 信息 。 例 如， 路 由 表 和 默认 TTL. 
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5) icmp 有关 1CMP 实现 和 操作 的 信息 。 例如， 发 送 和 接收 的 ICMP 消息 数量 。 

6) tcp 有 关 TCP 实现 和 操作 的 信息 。 例如， 系统 中 最 大 的 活动 连接 数 。 

7) udp ”有关 UDP 实现 和 操作 的 信息 。 例 如 ， 发 送 的 数据 报 数量 

8) egp ”有 关 EGP 实现 和 操作 的 信息 (外 部 网 关 协 议 ) 

9) transmission 有 关 不 同 传输 方案 的 相关 信息 和 统计 信息 

10) snmp 有 关 访 问 〈 获 取 、 设 置 和 陷阱 ) 和 SNMP 的 错误 操作 

例子 : 在 MIB-I 中 的 TCP 连接 表 

MIB-H 中 tcp 组 下 的 TCP 连接 表 如 图 6-41 所 示 。 它 为 我 们 提供 了 一 个 管理 信息 结构 (SMI) ( 首 
次 定义 在 RFC 1442 中 ) 如 何 用 于 实现 MIB 的 很 好 例子 

在 图 641 中 的 TCP 连接 表 是 一 张 二 维 表 ， 其 中 每 一 行 代表 一 条 连接 (TecpconnEntry) 包含 一 条 
TCP 连接 以 列 的 形式 表示 的 5 个 属性 : 连接 状态 、 本 地 /远程 IP 地 址 、 本 地 /远程 端口 号 , 行 中 的 每 一 
列 是 一 个 标量 元 素 ， 其 属性 字段 定义 在 SMI 中。 通过 使 用 两 个 抽象 语法 标记 (ASN. 1): “SEQUENCE 
OF” 和 “SEQUENCE” 来 构造 表 ， 前 者 是 将 相同 类 型 的 一 个 或 多 个 对 象 成 组 ， 在 这 种 情况 下 是 Tcp- 
ConnEntry， 而 后 者 是 可 能 的 不 同类 型 的 标量 元 素 成 组 ， 在 这 种 情况 下 是 tcpConnState、tcp- 
ConnLocalAddress、tcpConnLocalPort、tcpConnRemAddress 和 tcpConnRemPort。 此 外 ， 在 
一 行内 它 包 括 4 个 元 素 ， 如 图 641 中 左边 中 间 部 分 的 INDEX 语句 所 指示 的 ， 以 标识 一 条 连接 。 表 6-24 

一 个 TCP 连接 表 的 例子 ， 它 给 我 们 一 个 明确 的 视图 。 














~ the TCP Connection table a 
-- The TCP connection table contains information about this ACCESS read-write 
一 entitys existing TCP connections. STATUS mandatory 
DESCRIPTION 
ona abie OBJECT-TYPE "The state of this TCP connection.." 
SYNTAX SEQUENCE OF TcpConnEntry := { tecpConnEntry 1 } 
ACCESS not-accessible i nl ocalA ddr OBJECT-TYPE 
STATUS mandalory SYNTAX IpAddress 
DESCRIPTION ACCESS read-only 
"A table containing TCP connection-specific information.” STATUS mandatory 
:= {tcp 13} DESCRIPTION 
| ar OBJECT-TYPE “The local IP address for this TCP connection. In the case of a 
| SYNTAX Tyan connection in the listen state which is willing to accept connections for any IP 
| ACCESS otracoessible interface associated with the node. the value 0.0.0.0 is used." 
| STATUS mandatory := { tecpConnEntry 2 } 
DESCRIPTION ponnlscalPort OBJECT-TYPE 
"Information about a particular current TCP connection. An SYNTAX INTEGER (0..65535) 
object of this type ls transient, in that it ceases to exist when (or soon after) ACCESS read-only 
the connection makes the transition to the CLOSED state.” STATUS mandatory | 
INBEX | tcpConnLocalAddress, DESCRIPTION 
tcpConnLocalPort, "The local port number for this TCP connection.” 
tcpConnRemAddress, EE tepCOnn Enty 3 
tcpConnRemPort } | OBJECT-TYPE 
is= pe 1} SYNTAX os 
nabn = ACCESS read-only 
SE OUE NC El STATUS mandatory 
tcpConnState INTEGER、 DESCRIPTION 
tcpConnLocalAddress IpAddress, “The remote IP address for this TCP connection.”" 
tcpConnLocalPort INTEGER (0..65535), : 演 [ 下 0 的 有 41 
tcpConnRemAddress IpAddress, tpl omni OQBJECT-TYPE 
tcpConnRemPort INTEGER (0..65535) SYNTAX INTEGER (0..65535) 
} ACCESS read-only 
tpl anniair OBJECT-TYPE STATUS mandatory 
SYNTAX INTEGER | DESCRIPTION 
closed(1), listen(2), synSent(3), synReceived(4) "The remote port number for this TCP connection." 
established(5), finWait1(0), finW ait2(7). closeW ait(8), := { tecpConnEntry 5 } 
lastAck(9), closing(10), timeWait(11). deleteTCB(12) } 








图 641 在 MIB-IT 规范 中 的 TCP 连接 表 
从 表 中 我 们 可 以 看 到 ， 系 统 当 前 给 出 4 条 连接 ， 每 一 条 连接 可 以 唯一 地 由 本 地 /远程 IP 地 址 和 本 
地 /远程 端口 号 〈 也 称 为 “ 套 接 字 对 ”) (索引 ) 来 标识 。 请 注意 ， 表 中 的 每 个 标量 对 象 也 有 其 自己 的 
0ID， 这 样 可 以 修改 其 值 。 例如， 在 第 4 个 条 目 中 “established state” (建立 的 状态 ) 的 OID 赋值 为 
x 1. 1. 140. 113. 88. 164. 23. 140. 113. 88. 174. 3082”， 其 后 缀 选择 将 根据 所 属 的 连接 来 定 ， 当 状态 改变 
时 其 值 也 相应 地 修改 








表 6-24 在 Tabular 视图 中 的 TCP 连接 表 
tcpConnTable (1.3.6.1.2.1.6.13) tcpConnEntry = (x.1) 


一 一 -一 一 



































tcpConnState | tcpConnLocalAddress | tcpConnLocalPort | tcpConnRemAddress ltcpConnRemPort 

(x.1.1) (x.1.2) (x.1.3) (x.1.4) (x.1.5) 

Xx.1 | 监听 1 0.0.0.0 | 23 0.0.0.0 0 

x | 监听 0000 161 0.0.0.0 0 
x.1| 关闭 等 待 127.0.0.1 161 127.0.0.1 1029 
1| 已 建立 140.113.88.164 | 23 140.113.88.174 - 3082 
~ 一 

索引 


6.6.4 SNMP 中 的 基本 操作 
我 们 曾经 提 到 过 , 在 SNMP 中 有 3 种 活动 类 型 : 获 了 让、 设置 和 陷阱 ， 事 实 上 于 ,我们 可 以 进一步 指 
定 如 表 6-25 所 示 的 操作 ， 其 中 每 个 操作 都 封装 在 协议 数据 单元 (PDU) 中 作为 SNMP 操作 的 基本 单 
元 。 注 意 ， 表 中 的 版 本 字段 表示 提出 PDU 时 的 SNMP 版 本 ， 版 本 1 的 PDU 仍然 得 到 了 广泛 的 应 用 ， 版 
本 2 中 某 些 功能 得 到 增强 
表 6-25 SNMP 中 的 基本 操作 





























PDI 描 述 版 本 
et | 到 回 叶子 对 象 的 什 Vl 
CaiNewtRequos 获取 字典 顺序 上 接近 指定 对 象 的 对 象 i 
SelRequest 设置 (更新) 叶子 对 象 的 值 V1 
GetResponse | 对 GetRequest ( 值 ) 或 SetRe ‘quesl (ACK) 做 出 啊 应 V1 
Trap 由 代理 发 出 ， 异步 地 通知 第 理 芽 . 作 站 发 生 了 某 些 重要 事件 VI 
CetBulk Request 到 回 大 的 数据 块 ， 例 如 表 中 的 多 行 V2 
[Torin ae ”| 多 许 MS 发 送 陷阱 信息 给 另 一 个 MS 并 接收 响应 v2 
PDU: SNMP 操作 中 的 基本 数据 单元 MS: 管理 工作 站 ”变量 绑 定 列表 : PDU 中 变量 和 对 应 值 的 列表 
每 个 封装 在 UDP 数据 报 中 的 SNMP 消息 都 有 三 个 主要 部 分 : 普通 SNMP 头 部 、 操 作 头 部 和 变量 绑 


定 列表 。 普通 SNMP 头 部 由 SNMP 版 本 、 社 区 ( 用 于 访问 控制 的 明 文 密码 ) 和 PDU 类 型 组 成 。 表 6-25 
的 第 一 列 列 出 了 可 能 的 PDU 类 型 。 操 作 头 部 提供 了 关于 操作 的 信息 ， 包 括 请 求 -ID 〈 分配 用 于 匹配 未 
经 确认 的 请 求 ) 和 错误 状态 。 由 一 系列 变量 值 对 组 成 的 变量 绑 定 列 表 用 于 支持 信息 交换 。 常 规 的 操作 
分 别 由 GetRequest 和 SetRequest 执行 单个 检索 和 设置 对 象 。 但是， 同时 访问 多 个 对 象 还 是 可 能 
的 。 管 理 站 点 将 对 象 的 OID 放 入 变量 绑 定 列表 中 的 “变量 ”字段 中 ， 然后 将 PDU 发 送 给 一 个 代理 ， 代 
理 依次 填 入 对 应 值 字段 并 用 GetResponse PDU 回复 管理 站 ， 

遍历 一 棵 MIB 树 

GetNextRequest 用 来 获取 按 字 典 顺序 接近 指定 OID 的 对 象 。 尽 管 在 很 大 程度 上 " 
GetRequest 相 似 ,但 是 它 有 助 于 查找 MIB 树 的 结构 。 为 了 澄清 这 种 PDU 的 理念 ， pre, 
表 6-24， 但 是 这 次 是 以 树 的 形式 显示 在 图 6-42 中 

图 中 存在 层次 化 的 关系 ， 因 此 在 OID 树 中 有 可 以 使 用 深度 优先 搜索 ( DFS) 遍历 的 字典 顺序 。 考 
虑 管理 站 点 只 使 用 GetRequest PDU 的 情况 。 因 为 在 一 颗 MIB 树 中 的 0ID 并 不 是 连续 的 ， 所 以 如 果 它 
没有 一 张 完整 的 OID 表 ， 管 理 站 点 就 无 法 知道 MIB 的 结构 。 然 而 ， 一 旦 配备 了 GetNextReduest， 管 
理 站 点 就 可 以 完整 地 遍历 树 
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tepConnTable (1.3.0.1.2.1.06.13 =\) 


tlepConnEntry (x.1) 


tcpCpmmawtate tcpCpnnlocalAddress tcpC pnnlocalbporl 
(x11) (wi. (x.13) 
Listen 0000 站 
(1100002300 (12000023.00 (xs1300002300 
000) 000) 000) 
Listen lol 
(人 (1100006el00 (12000046100 (13000016e100 
000) 000) 000) 
closeWall 127001 16l 
(N11L127001.161 3 (x1212700.Li6l (sy1312700116] 
1270011029) 1270.0.1.1029) 1270011029) 
established 140113.88.164 33 
(N11.140.113.88.104.23 (N12140113.88 164 23 (411314011388.164 23 
140.113.88.174.3082) 140.113.88.174.3082) 140.113.88 174.3082) 


图 642 ”以 字典 视图 表示 的 TCP 连接 表 
MIB 对 象 的 批量 传输 
为 了 效率 ，SNMPv2 采用 了 GetBulkRequest PDU。 与 CEA 相 比 ，GetBulkRe- 
quest 支持 更 强 的 检索 方案 ， 范 围 检索 多 个 对 象 ， 而 不 是 多 次 连续 地 检索 .管理 站 点 只 是 在 PDU 中 指 
定局 始 0ID 和 检索 范 玮 ， 接 收 PDU 的 代理 给 管理 站 点 发 送 回 一 个 在 其 绑 下 开 表 中 骨 和 了 请 求 变量 值 对 
的 变量 GetResponse。 对 于 图 6-42 中 的 例子 ，GetBulkRequest[2, 4|] (system, interface tcp- 


ConnState, tcpConnLocalAddress, tcp- ConnLocalPort) 将 返回 4 个 变量 值 对 


开源 实现 6.5: Net-SNMP 

概述 

NeT-SNMP 最 先 开 发 于 卡 内 基 梅 隆 大 学 (大约 在 1995 年 ) 和 美国 加 州 大 学 戴 维 斯 分 校 (1995 一 
2000 年 ) ， 目 前 该 软件 包 由 NET-SNMP 开发 团队 维护 (自从 2000 年 以 后 )， 参见 网 站 http: //source- 
forge. net/projects/net-snmp。 它 提供 : 1) 具有 MIB 编译 器 的 可 扩展 代理 ， 通 过 它 人 们 可 以 开发 自己 的 
MIB; 2) 可 以 进一步 开发 的 SNMP 库 ; 3) 从 SNMP 代理 获取 或 设置 信息 的 工具 ; 4) 产生 和 处 理 
SNMP 陷阱 的 工具 。 它 还 支持 SNMPv1 、v2、v3 和 其 他 SNMP 相关 的 协议 。 与 本 章 中 其 他 大 多 数 开源 实 
现 不 同 ，Net-snmp 是 一 种 迭代 实现 ， 同 时 支持 无 状态 SNMP 协议 的 非 面向 连接 (在 UDP 端口 161) 和 
面向 连接 (在 TCP 端口 161) 模型 

基本 命令 和 例子 

表 6-26 显示 了 Net-SNMP 中 和 相应 PDU 使 用 的 一 些 命令 描述 。 基 本 上 它们 是 不 同 版 本 的 PDU 实 
现 , 在 图 6-43 中 ， 我们 使 用 snmpget 、snmpset 和 snmpwalk 命令 进行 说 明 。snmpwalk 使 用 Get- 
NextRequest PDU 遍历 子 树 下 的 所 有 对 象 。 我们 使 用 预 配置 的 用 户 名 如 “ynlin” 和 密码 如 “ynlinpass- 
wd” 来 检索 对 象 实例 system. sysContact. 0。 安 全 级 别 设置 为 “authNoPriv” (意味 着 只 需要 认 
证 ， 不 需要 数据 私密 性 ， 即 数据 加 密 ) ， 验 证 方法 设置 为 MD5 . 


表 6-26 在 Net-SNMP 中 用 于 查询 、 设 置 和 陷阱 的 一 些 命令 




















名 字 描述 和 例子 使 用 的 PDU 
SNMPCEET 使 用 get 查询 一 个 叶子 季 点 的 值 CetRequest 
SNMPSET 设置 (更新) 叶子 节点 的 值 SeltRequest 
SNMPBULKGET -次 获取 多 个 对 象 ， 可 能 在 不 同 的 子 树 下 GetBulkRequest 


























( 续 ) 

名 字 描述 和 例子 使 用 的 PDL 
SNMPWALK 探索 MIB 一 颗 树 下 的 所 有 对 象 GeltNextRequest 
SNMPTRAP 使 用 TRAP 请 求 向 网 络 管 理 员 发 送信 息 。 多 个 对 象 标识 符 可 以 用 作 参 数 Trap 
、 Dt 用 于 从 一 个 网 络 实体 中 查询 几 个 重要 统计 量 ， 如果 有 错误 的 话 ， 还 会 报 
SNMPSTATUS et 

rT FH 误 

SNMPETSTAT 显示 从 远程 系统 上 在 询 的 各 种 网 络 相 关 信 息 值 ， 使 用 SNMP 协议 








算法 实现 

图 6-44 显示 了 Net-SNMP 内 部 是 如 何 运行 的 . 通过 执行 带 有 某 些 选项 (如 syslog ee 和 局 动 
某 些 模块 的 snmpd 来 局 动 服务 器 。 然 后 调用 init agent () 读 配置 文件 ， 建 立 需要 的 数据 结构 (如 
对 象 树 ) ， 同 时 初始 化 其 他 的 子 代 理 (如 Agentx),， 并 且 由 init_snmp () 进 一 步 完 成 配置 ， 它 也 用 于 
解析 MIB 模块 ， 然 后 主 代理 就 启动 了 pep te 
注册 回调 。 例 如 handle master agentx Packet () 函数 就 是 为 特定 RgentX 分 组 处 理 的 名 为 sess 
的 会 话 进行 注册 ， 最 后 ,程序 进入 接收 循环 处 理 各 种 会 话 








$ snmpget -v 3 -u ynlin -| authNoPriv -a MD5 -A ynlinsnmp localhost system.sysContact.0 
system.sysContact.0 = ynlin@cis.nctu.edu.tw 


$ snmpset -v 3 -u ynlin -| authNoPriv -a MD5 -A ynlinsnmp localhost system.sysContact.0 
s gis88559 system.sysContact.0 = gis88559 


'$ snmpget -v 3 -u ynlin -| authNoPriv -a MD5 -A ynlinsnmp localhost system.sysContact.0 
system.sysContact.0 = gis88559 


$ /usr/local/bin/snmpbulkwaik -v 3 -u ynlin -| authNoPriv -a MD5 -A ynlinpasswd localhost 
system system.sysDescr.0 = Linux ynlin2.cis.nctu.edu.tw 2.4.14 #5 SMP Thursday 
November 22 23:6 system.sysObjectID.0 = OID: enterprises.ucdavis.ucdSnmpAgent.linux 
system.sysllpTime.0 = Timeticks: (30411450) 3 days, 12:28:34.50 system.sysContact.0 = 
gis88559 system.sysName.0 = ynlin2.cis.nctu.edu.tw system.sysLocation.0 = ynlin2 
lsystem.sysORLastChange.0 = Timeticks: (0) 0:00:00.00 system.sysORTable.sysOREntry. 
'sysORID.1 = OID: ifMIB 

system.sysORTable.sysOREntry.sysORID.2 = OID: .iso.org.dod.internet.snmpV2.snmpB 
‘system.sysORTable.sysOREntry.sysORID.3 = OID: tcpMIB system.sysORTable.sysOREntry. 
sysORID.4 = OID: ip system.sysORTable.sysOREntry.sysORID.5 = OID: udpMIB 











图 643 SNMPv3 中 snmpget 、snmpset 和 snmpwalk 的 例子 


会 话 由 通过 1/0 与 其 他 守护 进程 复 用 的 select() 函数 服务 。 但 是 ，snmp select info() 通 数 与 这 
项 技术 无 关 。 相 反 ， 它 执行 管理 工作 针对 : 1) 对 于 即将 到 来 的 select () 活动 会 话 ; 2) 即将 关闭 的 
会 话 和 记录 在 fd_set 和 numfd 结构 上 的 活动 会 话 。snmp_read () 函数 读 取 选 择 会 话 的 请 求 。 它 会 使 
用 snmp_parse () 函数 检查 fd_ set 中 的 分 组 是 否 属于 SNMP 分 组 ， 然 后 从 请 求 中 去 掉 不 必要 的 部 分 ， 
从 而 形成 了 SNMPPDU。 将 由 此 产生 的 PDU 传递 给 前 面 为 会 话 注册 的 回调 例 程 ， 一旦 例 程 成 功 返 回 
就 将 所 要 的 信息 发 回 给 请 求 者 。 

最 后 ，netsnmp_check outstanding agent _ requests () 检 查看 是 否 存在 任何 未 经 确认 的 委托 
请 求 。 如 果 存在 ， 它 就 使 用 访问 控制 模块 (ACM) 进行 验证 ， 一 旦 验证 通过 ， 就 处 理 请 求 。 
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用 要 求 的 选项 启动 服务 器 


init agent () 
[agent/snmp vars.c] 
init snmp () 
[agent/snmp_api.c] ; 
init_master agent () 
[agent/snmp agent.c] 


while (netsnmp running) 
















receive () [agent/snmpadt.c] 






snmp select info () 
[snmplib/snmp, api.c] 


count=select {numfds, &fdset.0.0.tvp) 


snmp Fead () 
[snmplibsnmp_apic] 


netsnmp check outstanding agent requests () 
[agent/snmp agent.c] 


图 644 Net-SNMP 内 部 的 处 理 流程 






















/** snmp version */ 


long version; 
/** Number of retries before timeout. */ 
int retries; 


struct snmp_session *subsession; 
struct snmp_session *next; 


u_short remote_port; 

/** My Domain name or dotted IP address, 0 for default */ 
char #localname: 

/## My UDP port number, 0 for default, picked randomly */ 
u_short local_port; 

/** Function to interpret incoming data */ 
netsnmp_callback callback; 

/** Session id - AgentX only */ 

long sessid; 

* SNMPv1, SNMPv2c and SNMPYv3 fields 








图 645 一 个 会 话 的 结构 (部分) 


/** UDP port number of peer. (NO LONGER USED - USE peername INSTEAD) */ 





当 模 块 需要 更 多 的 时 间 来 完成 传 入 的 请 求 时 ， 它 就 将 请 求 标记 为 delegated (授权 ) 的 并 返回 ， 允 


许 代 理 处 理 其 他 请 求 
以 便 在 等 待 子 代理 回应 时 能 够 有 空 处 理 其 他 的 请 求 。N 
权 ) 请 求 在 set 请 求 处 理 之 前 处 理 完 
请 求 就 要 排队 等 待 ， 直 到 它们 完成 为 止 ， 


例如 ,代理 将 任何 必须 由 Agentx 子 代 理 处 理 的 请 求 标记 为 delegated (授权 )， 





ET-SNMP 要 求 所 有 pending delegated (等 待 的 授 


如 果 仍 有 pending (等 待 ) 请 求 ， 那 么 set 和 所 有 其 他 到 达 的 
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查找 实现 set 操作 的 .¢ 文件 和 代码 行 。 
查找 SNMP 会 话 的 准确 结构 定义 


6.7 VolP 

在 本 章 所 描述 的 商 个 实时 应 用 中 , 蔬 电 话 (VoIP) 被 认为 是 硬 实时 的 而 流 媒 体 是 软 实 时 的 。 前 者 
拥有 大 约 250 量 秒 的 往返 时 间 (RTT) 约束 作为 用 户 延 迟 察觉 的 域 值 ， 但 后 者 可 以 容纳 数秒 延迟 播放 
的 RTT， 21 世纪 00 年 代 初 以 来 ， 由 于 大 量 铺设 的 过 供给 光纤 骨干 网 ， 所 以 VoIP 开始 普及 。 随 着 它 的 
不 断 发 展 ， 了 逐渐 形成 了 两 个 标准 :ITU-T 的 H.323 和 IETF 的 SIP。 SIP 最 终 获 得 了 胜利 ， 但 还 没有 在 
市 场 中 占据 主要 地位， 因为 还 有 多 个 其 他 的 专 有 VoIP 协议 。 本 节 将 介绍 和 比较 HH.323 和 SIP， 并 以 
Asterisk 为 例 说 明 SIP 的 开源 实现 


6.7.1 简介 


电话 服务 及 其 相关 设备 在 世界 上 大 部 分 地 方 被 认为 是 理所当然 。 不 论 固定 还 是 移动 电话 的 可 川 性 ， 
以 及 对 低 成 本 、 高 品质 的 网 络 接 入 ， 都 是 现代 社会 所 必需 的 。 然 而 ， 语 音 通信 不 再 被 传统 的 公共 交换 
电话 网 (PSTN) 所 主导 。 随 着 越 来 越 多 的 语音 通信 被 打包 ， 然 后 在 互联 网 上 传输 ， 通 信和 范式 迁移 已 经 


发 生 。 使 用 互联 网 协议 进行 语音 通信 称 为 YolP 或 IP 电话 ，VolP 变 得 特别 有 了 吸引 力 ， 因 为 具有 以 下 
优点 : 

廉价 的 费用 ”长 途 电 话 尤其 是 拥有 国际 分 支 机 构 和 市 场 的 公司 ， 可 能 有 真正 意义 上 的 费用 节省 
在 互联 网 上 统一 费 率 的 收费 模式 意味 着 你 只 需要 支付 固定 的 接 入 费 ， 而 与 你 发 送 多 少数 据 或 持续 多 长 
时 间 发 送 数据 无 关 ， 这 与 PSTN 的 收费 模式 非常 不 同 。 

简单 ”一 个 焦 成 语音 /数据 网 络 ， 可 以 简化 网 络 操作 和 管理 ， 管 理 一 个 网 络 应 该 比 管理 两 个 网 络 更 
有 成 本 效益 。 

消耗 更 少 的 带宽 ”使 用 脉冲 编码 调制 (PCM) 可 以 把 一 个 电话 公司 电路 中 的 语音 信道 分 成 一 种 标 
准 的 64 kbps。 为 一 方面 ， 在 IP 网 络 下 ， 如 果 具 备 强 大 的 编 解码 融 ， 于 么 使 用 G. 723. 1 可 以 把 单个 语音 
信道 的 党 宽 可 以 进一步 降低 到 6.3 kbps 

可 扩展 性 支持 利用 实时 诸 音 通信 和 数据 处 理 的 新 类 型 服务 ， 例如， 新 功能 可 以 扩展 到 和 白板、 呼 
叫 中 心 、 远 程 办 公 、 下 距 学 习 等 应 用 

虽然 VolP 有 许多 优点 ,但 是 需要 解决 服务 质量 ( QoS) 等 问题 ， 以 便 减 少 从 IP 网 络 继承 来 的 天 
失 、 延 信和 抖动 的 影响 。 由 于 2000 年 前 后 对 光纤 网 络 基 础 设施 的 巨大 投资 ,现在 VoIP 应 用 程序 的 运 
行 在 大 部 分 地 区 还 是 令 人 满意 的 ， 这 是 10 年 前 不 可 想象 的 。 

本 节 将 介绍 两 种 VoIP 协议 ，H. 323 和 SIP， 以 及 它们 的 扩展 架构 。 由 国际 电信 联盟 (ITU-T) 定义 
的 H. 323 协议 开发 得 较 早 ， 但 已 经 被 IETF 的 SIP 取代。SIP 的 简单 性 使 它 成 为 比 H. 323 更 令 人 满意 的 
解决 方案 。1999 年 SIP 定义 在 RFC 2543 中 ， 后 来 因为 2002 年 RFC 3261 的 出 现 而 被 废弃 


历史 演变 : 专用 VoIP 服务 一 一 Skype 和 MSN , 

在 VoIP 的 历史 中 曾经 开发 过 很 多 应 用 程序 ， 既 有 公用 也 有 专用 的 。 但 是 其 中 只 有 部 分 流行 起 来 ， 
如 Skype (专用 的 )、MSN (专用 的 ) 和 Asterisk (开源 的 )。 令 人 惊讶 的 是 ， 上 述 三 者 中 只 有 Asterisk 
遵循 SIP 协议 ， 而 其 他 两 者 开发 了 自己 的 协议 ， 分 别 是 加 密 的 Skype 协议 和 MSNMS (MSN 信使 服务 ) 
协议 。 虽然 MSN 在 其 2005 年 的 版 本 中 提供 了 SIP 选项 ， 但 它 却 抛弃 了 互 操作 性 

因为 它们 已 被 广泛 地 讨论 和 分 析 过 ， 所 以 相信 它们 采取 了 同样 的 方法 ， 既 一 种 类 SIP 协议 。 然 而 ， 
由 于 商业 上 的 考虑 ， 通 过 使 用 不 同 于 RTPARTCP 的 传输 协议 和 不 同 的 编 解码 器 维护 专用 社区 群体 。 这 种 
趋势 非常 类 似 于 传统 的 电信 市 场 ， 因 此 不 同 供应 商 的 产品 之 间 很 少 具 有 兼容 性 。2010 年 年 初 ，Skype 的 
用 户 人 数 为 4430 万 (每 天 有 422 万 的 活跃 用 户 ) ， 而 MSN 的 相关 信息 没有 披露 。 由 于 安装 和 操作 的 复杂 
性 ，Asterisk 的 用 户 数 可 能 比 其 他 两 个 都 要 少 得 多 。 绝 大 多 数 采 用 它 的 用 户 都 是 公司 ,而 不 是 终端 用 户 


应 亡 改 329 








6.7.2 H. 323 

H. 323 协议 栈 是 被 许多 商业 产品 采 川 的 占 主导 地 位 的 YolP 协议 。 它 首次 发 布 于 1996 年 ， 原 来 是 
针对 局 域 网 上 的 多 媒体 会 议 ， 但 后 来 扩 民 为 代 和 从 VolP， 进一步 的 增强 功能 包括 通过 资源 预 留 协 议 
(RSVP) 终端 配置 Qos、URL 格式 的 地 址 、 呼 叫 建 立 、 带 宽 管 理 和 安全 特点 等 。 

H. 323 网 络 中 的 元 素 

H. 323 环境 称 为 区 ,通常 包括 4 种 元 素 : 一 个 更 多 个 终端 、 网 关 、 多 点 探 制 单元 (MCU) 和 一 个 


管理 关 守 

1) 终端 H.323 终端 通 沉 是 客户 端 软 件 ， 用 于 初始 化 与 另 一 个 H.323 终端 、 多 点 控制 单元 或 网 关 
的 双 回 通信 。 

2) 网 关 网关 充 当 VolP 区 和 其 他 类 型 网 络 (通常 是 PSTN 网 络 ) 的 中 间 人 ， 为 双向 通信 提供 车 
换 服务 ， 


3) 多 点 控制 单元 。 MCU 就 是 操纵 3 个 或 多 个 终端 或 网 关 参 与 多 点 会 议 的 H. 323 终点 。 它 既 可 以 
是 独立 的 也 可 以 集成 到 终端 、 网关 或 天守 中 ， 

4) 关 守 ” 关 守 为 网 络 中 的 其 他 实体 提供 地 址 转换 、 接 入 探 制 、 人 带宽 探 制 等 各 种 服务 。 像 定位 服 
务 ， 邵 为 注册 的 终端 定位 网 关 和 通话 管理 等 辅助 服务 也 可 以 包括 进来 。 然而， 由 于 两 个 终端 仍然 可 以 
在 没有 额外 服务 支持 的 情况 下 相互 通信 ， 所 以 它 是 可 选 的 。 

图 6-46 显示 了 在 H. 323 区 中 4 全 天 素 之 之 间 的 关系 。 普 通 的 VoIP 事务 可 以 描述 如 下 : 在 H.323 网 
络 中 的 每 个 实体 都 具有 唯一 的 网 络 地 址 。 当 终端 想 要 与 另 一 个 终端 连接 进行 语音 会 话 时 ， 如 果 需 要 它 
首先 问 关 守 发 出 呼叫 许可 的 请 求 。 如 有 果 被 允许 ， 那 么 主 叫 方 发 送 一 个 包含 指 目标 地 址 和 端口 的 连接 请 
求 给 远程 终端 ， 如 ras: /Ahost@ domain: port。 经 过 一 些 能 力 协 商 后 ， 在 酚 个 终端 之 间 就 建立 一 个 通信 
信道 ，MCU 和 网 关 分 别 只 应 用 于 三 次 呼叫 和 下 联网 络 唾 叫 | 下 








电话 
11.323 分 组 交换 网 络 电路 交换 网 络 
图 6-46 ”H.323 的 环境 
H. 323 的 协议 栈 


图 647 显示 了 H. 323 协议 栈 ， 它 可 以 分 成 两 个 平面 : 控制 平面 和 数据 平面 。 控 制 平 面 负 责 协调 VoIP 
会 话 的 建立 和 拆除 ， 而 数据 平面 处 理 语音 或 多 媒体 数据 的 编码 和 传输 。 下 面 描述 每 个 协议 的 功能 
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控制 数据 音频 视频 控制 控制 
Q931 TI20 RTCP 

















图 647 H. 323 的 协议 栈 
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注册 许可 和 状态 (RAS) 是 一 种 在 关 宁 和 它 控制 的 终端 之 间 的 信 令 方法 。 它 定义 在 H. 225.0 中 ， 
支持 注册 /注销 、 许 可 、 上 带宽 更 改 和 对 终端 呼叫 的 解除 。Q. 931 是 一 个 用 于 两 个 终端 之 问 呼 叫 的 建立 和 
拆除 的 信 令 方法 。 因 为 它 是 为 PSTN 定义 的 Q.931 协议 的 一 个 变种 ， 所 以 H. 323 和 PSTN 的 网 络 互 连 设 
计 也 被 简化 了 。H.245 用 于 能 力 协商 ， 如 两 个 终端 之 间 的 音频 (G.711、G.723、G.729) 或 视频 
(H.263) 编 解 码 器 的 类 击 ， 并 确定 终端 之 间 的 主 从 关系 。 主 从 区 分 是 必要 的 ， 因 为 需要 一 个 仲裁 者 
( 主 ) 来 描述 逻辑 信道 的 特点 并 为 所 有 的 RTP Z RTCP 会 话 和 确定 组 播 组 地 址 。 初始化 完成 后 ， 可 以 通过 
H. 245 建立 很 多 滥 辑 信道 .了 120 由 一 套 服务 于 多 媒体 会 议 的 数据 协议 组 成 ， 如 应 用 程序 共享 、 电 子 
自 板 和 VolP 会 话 期 间 的 文件 传输 

如 5.5 节 所 述 ， 实 时 传输 协议 (RTP) 是 一 个 简单 的 协议 ， 旨 在 通过 利用 没有 出 现在 已 有 的 传输 
协议 (如 UDP) 中 的 序列 号 来 传输 和 同步 实时 流量 。 实 时 控制 协议 (RTCP) 也 是 由 IETF 作为 RTP 的 
相关 协议 定义 的 ， 根 据 向 会 话 中 的 所 有 参与 者 周期 性 地 传输 控制 分 组 实现 的 。 它 主要 负责 向 所 有 参与 
者 提供 有 关 数 据 传输 的 质量 反馈 ， 这 有 助 于 选择 正确 的 编 解码 只。 例如 ， 通 过 给 UDP 使 用 不 同 的 端口 
号 等 方式 ， 底 层 传输 协议 必须 提供 RTP 和 RTCP 分 组 的 复 用 。RTP 和 RTCP 在 5.5 节 中 介绍 。 除 了 它们 
应 用 在 VoIP 的 H.323 和 SIP 中 外 ， 我 们 将 在 6.8 节 中 还 会 看 到 它们 应 用 在 流 媒体 的 连接 中 

H. 323 呼叫 的 建立 过 程 

H. 323 呼叫 建立 过 程 有 两 种 情况 : 一 个 涉及 关 守 ， 一 个 没有 关 守 。 通 常情 况 下 ， 一 个 高 质量 、 完 
全 可 控制 的 呼 册 涉 及 本 地 的 管理 关 守 与 远程 关 守 的 合作 。 这 种 模型 称 为 “ 关 守 路 由 呼 岂 信和 令 ”, 

图 6-48 描绘 了 一 个 关 守 的 路 由 H. 323 呼叫 的 一 般 建立 过 程 。 存在 关 守 的 情况 下 ， 所 有 的 控制 信 
息 ， 包 括 呼叫 请 求 ， 都 将 发 送 或 路 由 到 它 。 呼叫 请 求 由 关 守 中 实现 的 RAS 处 理 ， 用 于 注册 许可 和 其 他 
服务 (如 地 址 转移 、 和 带宽 分 配 )。 然 后 本 地 关 守 给 被 叫 方 发 出 一 条 建立 消息 ， 如 果 被 叫 者 想 要 处 理 这 
次 会 话 ， 它 就 会 请 求 自 己 的 关 守 ， 如 果 人 允许 ， 被 叫 方 发 出 一 个 肯定 的 应 答 给 最 初 发 起 的 关 守 ， 然 后 末 
来 所 有 的 控制 消息 者 将 经 过 这 两 个 关 守 路 由 
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图 6-48 ”H. 323 呼叫 的 建立 过 程 

在 是 边 的 关 守 允许 一 个 呼叫 请 求 后 ， 呼 叫 方 将 继续 Q. 931 建立 过 程 。Q. 931 协议 实际 上 就 是 用 于 : 
“ 振 铃 ”并 为 H. 245 控制 信道 返回 一 个 动态 分 配 的 端口 。H. 245 信道 的 建立 过 程 经 过 能 力 协商 和 主 从 
确立 后 ， 打 开 邮 辑 信道 ， 两 个 终端 可 以 开始 基于 RTP 并 由 RTCP 监控 的 会 话 了 。 信道 的 关闭 和 呼叫 的 
斯 开 是 以 类 似 的 方式 完成 的 。 

不 难看 出 ， 在 H. 323 中 信息 交换 的 招 外 开销 是 巨大 的 ,尤其 是 在 使 用 关 守 路 由 模型 时 ， 为 了 克服 
这 个 缺点 ,引入 了 所 谓 的 “快速 连接 ”步骤 。 在 快速 连接 步骤 中 ，H. 245 信息 是 在 0. 931 消息 中 携带 
的 ， 并 没有 使 用 单独 的 H. 245 控制 信道 。 因 此 呼叫 完成 也 会 变 得 更 快 。 通 过 发 送 Q. 931 Release Com- 
plete (释放 完成 ) 消息 来 实现 呼叫 释放 ， 与 H. 245 一 样 ，Q. 931 消息 还 起 到 关闭 所 有 与 呼叫 相关 的 收 
得 信道 的 作用 
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6. 7. 3 会 话 初始 化 协议 

会 话 初 始 化 协议 (STP) 是 一 种 VolP 可 选 的 信 令 协议 。 它 由 IETF 提出， 由 于 它 的 简单 性 和 与 其 他 
大 多 数 也 是 由 ETF 定义 的 IP 网 络 中 的 已 有 协议 相 兼 容 优 势 ， 它 旨 在 到 代 TTU-T 的 H.323。 由 于 拥有 很 
多 其 他 补充 协议 所 提供 的 会 话 描 述 和 组 播 功能 ， 所 以 它 很 容易 处 理 建 立 、 修 改 和 拆除 多 媒体 会 话 。 由 
于 实时 性 的 本 质 ， 所 以 它 也 依赖 RTP 作为 其 传输 协议 。 

与 基于 文本 的 协议 HTTP 一 样 ，SIP 也 借用 其 消息 类 型 、 头 部 字段 和 客户 端 / 服 务 器 方案 。 然 而 ， 与 
HTTP 通过 TCP 的 特性 不 同 ，SIP 既 可 以 使 用 UDP 也 可 以 使 用 TCP。 多 个 STP 事务 可 在 一 个 TCP 连接 或 者 
一 个 UDP 数据 流 中 携带 。 此 外 ， 用 户 的 可 移动 性 也 由 提供 当前 用 户 位 置 的 代理 和 重 定向 来 满足 。 

SIP 网 络 中 的 元 素 

由 于 SIP 是 基于 客户 端 / 服 务 器 的 ， 所 以 它 必须 至 少 有 一 个 作为 用 户 代理 客户 端 (UAC) 的 呼叫 方 
和 一 个 作为 用 户 代 理 服 务 咒 (UAS) 的 被 叫 方 ， 再 加 上 一 些 辅助 服务 器 ， 如 图 649 所 示 . 
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二 Cm ) i 
用 户 代 本 地 远程 用 户 代 
理 客户 端 (UAC) 代理 服务 器 代理 服务 器 ” 理 服务 器 (UAS) 


图 6-49 SIP 环境 

1) 代理 服务 器 ”与 HTTP 中 的 代理 服务 器 一 样 ，SIP 代理 服务 器 充当 客户 端的 角色 ， 很 可 能 在 转 
换 请 求 后 将 它 转发 给 其 他 服务 器 。 它 可 以 用 来 存储 计 费 或 记 账 目的 信息 。 

2) 重 定 向 服务 器 ” 重 定 向 服务 顺 通 过 告知 其 所 请 求 的 服务 融 地 址 来 响应 客户 端的 请 求 。 它 不 会 像 
代理 服务 器 那样 发 起 一 个 SIP 请 求 ， 也 不 会 像 UAS 那样 接受 呼叫 。 

3) 定位 服务 器 ”定位 服务 器 用 来 处 理 代理 服务 器 或 重 定 向 服务 器 对 被 叫 方 可 能 位 置 的 请 求 。 它 通 
常 是 一 个 使 用 非 SIP 协议 或 路 由 策略 来 定位 用 户 的 外 部 服务 器 。 用 户 可 以 向 服务 器 注册 当前 的 位 置 。 
与 其 他 SIP 服务 器 协同 定位 是 可 能 的 。 

UAC 直接 向 UAS 或 通过 代理 发 出 呼叫 请 求 ， 又 称 为 INVITE 请 求 。 在 前 一 种 情况 下 ， 如 果 UAC 只 知道 
UAS 的 URL 但 不 知道 UAS 的 位 置 ， 那 么 INVITE 请 求 就 被 发 送 给 重 定向 服务 器 ， 然 后 由 重 定向 服务 器 向 位 
置 服务 器 询问 有 关 UAS 的 位 置信 息 ， 假 设 UAS 的 位 置 已 经 注册 到 服务 器 ， 那 么 就 给 UAC 应 答 。 如 果 使 用 代 
理 ,， 那么 UAC 只 是 将 请 求 发 送 给 代理 而 不 关心 UAS 的 位 置 。 代 理 将 联系 定位 服务 器 。 通 常情 况 下 ， 代 理 服 
务 器 实现 重 定向 能 力 。 当 UAC 与 代理 服务 器 联系 时 ， 它 只 指定 它 需 要 的 服务 是 重 定向 还 是 代理 。 

SIP 的 协议 栈 

如 图 6-50 所 示 ， 需 要 多 个 协议 才能 建立 SIP 操作 的 基础 。 由 RTP 实时 传输 ， 由 RTCP 监控 ， 这 些 
与 H. 323 相同 。 我 们 将 详细 介绍 SIP 及 其 补充 协议 ， 会 话 公 告 协议 (SAP) 和 会 话 描述 协议 (SDP)， 

















控制 平面 控制 平面 数据 平面 

















图 6-50 ”SIP 的 协议 栈 
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SIP 客户 端 由 “用 户 @ 主机 ”格式 的 SIP-URL 确定 ， 请 注意 ， 这 种 类 型 的 寻 址 看 起 来 类 似 于 电子 
邮件 地 址 。 用 户 部 分 可 能 是 几 户 名 也 可 能 是 电话 号 码 。 主 机 部 分 可 能 是 域名 、 主 机 名 或 数字 网 络 地 址 
例如 ， 


callee@cs.nctu.edu.tw and 
+56567@nctu.edau.cw. 


SIP 呼叫 的 建立 过 程 

一 旦 知道 被 叫 方 的 地 址 ， 主 叫 方 就 发 出 Ce -次 呼叫 。 表 6-27 列 出 了 SIP 中 
的 操作 符 或 命令 ， 前 4 个 操作 符 用 于 呼叫 建立 和 拆除 。 通常 情况 是 ， 呼 叫 方 给 新 VolP 会 话 的 URL 中 指 
定 的 被 叫 方 发 送 INVITE ( 它 通 常 包 含 SDP 中 的 会 话 描 述 )， 然后 等 待 响 应 。 如 果 知 道 目 的 中 地址， 
那么 请 求 直 接 发 送 给 被 叫 方 ; 否则 ， 以 重 定 向 模式 或 代理 模式 将 它 发 送 给 拥有 内 釉 定 位 服务 器 的 本 地 
代理 服务 器 ， 对 于 后 一 种 情况 ， 代 理 将 根据 来 自 位 置 服务 融 的 地 址 信息 转发 INVITE 消息 ， 很 可 能 经 
过 其 他 代理 ， 最 后 旬 达 目的 地 


表 6-27 一 些 SIP 命令 




















操 作 符 描 述 操 作 符 描 述 

INVITE | 洲 证 用 户 参 与 -次 呼叫 OPTIONS 本 对 之 持 的 功能 
ACK 对 变 终 啊 应 做 出 确认 性 REGISTER | 问 位 置 [服务 带 广 吕 : 前 客 ) , 庙 的 位 轩 加 
BYE | ” 终 下 两 个 端点 之 间 的 呼叫 | INFO | 用 于 中 间 会 话 的 信 令 
CANCEL 中 士 对 用 户 的 搜索 或 对 呼 岂 的 请 求 














现在 被 叫 方 的 电话 振 铃 .如 果 被 叫 方 回 意 本 地 机 咒 检 查 会 话 要 求 并 片 意 参加 会 话 ， 那 么 就 接 通电 
话 ， 他 就 利用 正确 的 应 答 码 (如 200 OK) 来 应 答 呼 叫 方 ， 如 表 6-28 所 示 。 然 后 呼叫 方 通过 发 送 ACK 
消息 确认 被 叫 方 的 响应 ， 因 此 完成 握手 并 开始 会 话 。 但是， 有 时 会 存在 被 叫 方 繁 忙 ， 在 很 长 一 段 时 间 
内 不 能 处 理 INVITE 请 求 的 情况 。 在 这 种 情况 下， 呼叫 方 可 能 会 放弃 并 发 送 一 个 CANCEL 消息 

表 6-28 ”SIP 应 答 代码 

应 答 码 i 应 答 码 描 述 
lxx (通知 性 的 ) | 尝试 、 振 铃 和 排队 4xx ( 请 求 失败 ) 来 让 特定 服务 器 的 失败 响应 
2xx (成 功 ) 请 求 成 功 5xx (服务 器 失败 ) | 当 服务 器 本 身 有 错误 时 ， 给 出 的 失败 响应 
3xx ( 重 定向 ) 给 出 有 关 接 收 方 新 位 置 的 信息 6xx (全 局 故障 ) | 忙 、 拒 绝 、 请 求 不 可 接受 














当 通 话 将 要 结束 时 ， 参 与 者 之 一 挂 断 电话 并 导致 发 送 一 个 BYE 消息 。 然 后 接收 主机 用 200 OK 来 
响应 以 便 确认 收 到 的 消息 ， 同 时 呼 册 终止 

当 SIP 在 会 话 中 充 当 命 令 发 生 器 时 ， 基于 文本 协议 的 SDP 也 用 来 为 会 话 双 方 描述 会 话 的 特性 。 会 
话 由 很 多 媒体 流 组 成 。 因 此 ， 会 话 的 描述 涉及 每 个 媒体 流 的 很 多 参数 规范 ， 如 传输 协议 和 媒体 类 型 

(音频 、 视 频 或 应 用 ) ， 以 及 会 话 本 身 ， 如 协议 版 本 、 来 源 、 会 话 名 称 和 会 话 的 起 始 /终止 时 间 

虽然 SDP 描述 会 话 的 特点 ， 但 是 它 没有 提供 在 会 话 建立 的 开始 时 会 话 通知 方式 。 因此 ，SAP 用 于 
在 SIP 会 话 期 间 向 参 会 者 通知 多 媒体 会 议和 其 他 组 播 会 话 ， 并 发 送 有 关 会 话 建立 的 信息 。SAP 广播 员 
周期 性 地 发 送 通告 分 组 给 众所周知 的 组 播 地 址 和 端口 〈9875 ) ， 这 样 潜在 的 会 话 参 与 者 可 以 使 用 会 话 
描述 来 启动 所 要 求 的 工具 加 入 到 会 话 中 。 需 要 注意 的 是 ,包含 组 播 传 送 会 话 描 述 符 的 分 组 的 有 效 载荷 
必须 以 SDP 格式 书写 ， 以 利于 参与 者 之 间 的 互 操作 ， 因 为 在 SAP 通告 中 没有 能 力 协 商 。 


历史 演变 : H. 323 与 SIP 对 比 

虽然 H. 323 协议 早 在 1996 年 就 定义 了 ， 但 它 却 没有 得 到 相应 的 市 场 ， 分 析 家 提出 H.323 失败 的 各 
种 原因 ， ri ft te 安全 问题 。 这 也 是 SIP 得 以 开发 的 原因 一 一 为 了 具有 轻 
量 级 和 易于 实施 。 除 了 其 他 优点 外 ，SIP 还 是 一 个 提案 标准 ， 定 义 在 RFC 2543 中 ， 后 来 因为 得 到 IETF 
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批准 和 支持 的 RFC 3261 的 出 现 而 被 弃 用 。 尽管 如 此 ，H. 323 仍然 有 其 优点 。 以 下 是 这 两 种 协议 之 间 存 
在 的 某 些 其 他 方面 的 差异 ， 

1) 消息 编码 日 .323 以 二 进 制 格式 编码 消息 ,而 不 是 以 ASCI 文本 格式 ， 因 此 它 更 紧凑 、 更 适 于 
传输 。 但是， 使 用 ASCHT 字符 串 开 发 人 员 更 容易 调试 和 解码 。 在 SIP 中 还 提供 ASCTT 码 压缩 方法 

2) 信道 类 型 H.323 协议 可 以 交换 和 协商 信道 类 型 ， 如 视频 、 音 频 和 数据 信道 SIP UAC 只 能 
议 一 组 信道 ， 在 其 中 其 他 UAS 会 受到 限制 。 如果 不 支持 ，UAS 用 一 个 错误 代码 ， 如 488 (这 里 不 可 接 
受 ) 和 606 (不 可 接受 ) ， 或 警告 代码 ， 如 304 (媒体 类 型 不 可 用 ) ， 响 应 INVIE 消息 

3) 数据 会 议 H.323 支持 视频 、 音 频 和 数据 会 议 (利用 也 120)。 它 还 确定 了 控制 会 议 的 规程 ， 
而 SIP 只 支持 视频 和 音频 会 议 ， 却 不 能 控制 会 议 ，。 


开源 实现 6.6: Asterisk 

概述 

与 其 学 习 一 个 简单 的 点 到 点 VolP 软件 ， 倒 不 如 研究 一 下 集成 了 PBX (专用 交换 机 ) 的 系统 一 一 
Asterisk， 它 通过 PSTN 网 关 能 够 将 软件 电话 之 间或 者 软件 电话 与 在 PSTN 中 的 传统 电话 接 起 来 。 如 图 6-51 
中 所 示 ， 一 台 Asterisk 服务 器 充当 PSTN 和 VolP 网 络 之 间 的 通信 员 (communication)， VolP 网 络 可 以 包括 
一 台 基 于 PC 的 安装 了 VolP 软件 的 电话 或 者 一 部 支持 SIP 功能 的 电话 。 当 与 一 台 能 够 将 模拟 信号 转换 成 
VolP 数据 流 的 模拟 电话 适配器 (ATA 适配器 ) 耦合 时 ， 甚 至 可 以 使 用 传统 的 电话 。 从 技术 上 讲 ， 
Asterisk 是 面向 连接 的 、 有 状态 的 SIP 协议 和 无 连接 的 、 无 状态 的 RTCPZ RTP 协议 的 并 发 实现 。 它 绑 定 
的 端口 并 不 是 特定 的 

Asterisk 提供 了 一 种 用 来 构建 定制 VoIP 系统 的 框架 。 如 图 6-52 所 示 ， 内 在 的 灵活 性 来 自 模 块 的 添 
加 和 删除 ， 如 信道 、RTP 和 用 于 建立 基本 传输 服务 的 成 帧 器 。Asterisk 的 核心 功能 是 作为 交换 本 地 (也 
就 是 说 ， 在 办 公 室 或 建筑 物 内 ) 呼叫 的 PBX， 然 而， 为 了 易于 高 层次 的 管理 也 可 能 配置 额外 的 实用 程 
序 工 具 ， 如 HTTP 服务 器 、SNMP 代理 和 呼叫 详细 记录 (CDR) 引擎 ， 


| Asterisk PBX 服务 器 | 








框架 


| CDR 引 擎 | SNMP 
PBX 模块 装载 器 

ATA 

适配器 

PC 机 软件 电话 SIP 电 话 模拟 电话 


图 6-51 基于 Asterisk 的 VoIP 环境 图 6-52 Asterisk 的 框 外 




































数据 结构 

PBX 将 呼叫 交换 到 其 对 应 的 目的 地 。 然 而 ， 在 目的 地 还 可 能 存在 许多 分 机 号 码 ， 因 此 就 需要 另 一 
个 层次 的 局 部 交换 为 了 实现 这 种 方案 ,在 Asterisk PBX 内 部 引进 了 名 为 上 下 文 和 扩展 的 两 个 概念 ， 
其 中 后 者 扩大 了 被 呼叫 组 ， 而 前 者 则 进一步 扩展 了 支持 的 组 数 。 如 图 6-53 所 示 ， 通 过 集成 上 下 文 多 家 
公司 或 组 织 中 的 每 个 成 员 都 可 以 有 自己 的 扩展 空间 ， 同 时 共享 一 台 PBX。 

通过 进一步 设计 ， 这 样 每 个 扩展 可 以 有 多 个 步骤 (这 里 称 为 优先 级 ) 以 便 能 够 组 织 一 个 允许 用 户 
为 了 自动 化 目的 预先 设 定 自己 呼叫 的 拨号 计划 。 优 先 级 与 执行 特定 行动 的 应 用 程序 相关 联 ， 例如， 呼 
叫 可 以 由 以 下 组 成 ; 1) 呼叫 行动 ， 通 过 “Call” 应 用 程序 以 优先 级 1 连接 到 被 叫 方 ; 2) 应 签 行动 ， 
涉及 应 用 程序 “Answer” 以 优先 级 2 播放 预先 录制 的 声音 文件 ; 3) 挂 断 行动 ， 应 用 程序 “HangUp” 
以 优先 级 3 关闭 信道 
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图 6-53 多 组 的 上 下 文 及 其 扩展 

算法 实现 

Asterisk 的 内 部 执行 可 以 分 成 4 个 步骤 : 1) 管理 接口 的 初始 化 ; 2) 带 有 所 需要 参数 (如 优先 级 和 
应 用 程序 ) 的 呼叫 发 起 ; 3) 数据 传输 信道 建立 ; 4) 派生 一 个 服务 线程 ， 以 便 建 立 PBX 结构 并 进行 
通话 。 

管理 接口 的 初始 化 

详细 的 处 理 流程 如 图 6-54 所 示 ， 在 开始 时 调用 init manager () 加 载 配置 并 注册 重要 的 回调 函 
数 ， 即 所 谓 的 “行动 " 。 除了 上 面 提 到 的 那些 “行动 ”外 ， 还 包括 以 下 例子 : 1) ping 用 于 测试 两 个 
端点 并 保持 连接 状态 ; 2) Originate 用 于 发 起 呼叫 ; 3) Status 用 于 列 出 信道 状态 。 初 始 化 完成 
后 ， 它 就 开始 监听 连接 请 求 。 请 注意 ， 在 Asterisk 中 的 “管理 器 ”会 话 ， 通 常 是 指 一 个 HTTP 会 话 管理 
接口 为 用 户 执行 要 求 的 动作 。 因 此 ， 可 能 有 多 个 管理 器 会 话 通过 非 阻塞 套 接 字 创 建 相 应 的 线程 ， 并 且 
对 这 些 会 话 中 触发 的 行动 采用 事件 队列 。 


init_manager() 
[main/manager.c] 





action_originate() 


[main/manager.c] 








ast_pbx_outgoing_exten() [main/pbx.c] 







_ast_request_and_dial(}) 


[main/pbx.c] 









First call in 
this channel? 


ast_pbx_start() ast: pbx_run() 
[main/pbx.c] [main/pbx.c] 





图 6-54 Asterisk 内 的 调用 流 
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呼叫 发 起 

当 管理 器 会 话 的 用 户 进行 呼叫 时 ， 就 使 用 一 个 包含 各 种 描述 呼叫 的 参数 ， 如 呼叫 者 上 四、 动作 ID、 
信道 名 称 、 扩 展 / 上 下 文 /优先 级 、 用 户 账户 和 应 用 的 调用 action originate () 。 发 起 的 动作 实际 上 
是 放 在 呼叫 方 队列 中 ,而 不 是 立即 执行 ， 以 避免 在 资源 不 足 的 情况 下 发 生 同 时 呼叫 的 事件 。ast pbx_ 
outgoing exten() 包含 了 一 系列 执行 呼叫 的 重要 处 理 程序 ， 在 用 户 账户 的 身份 验证 后 就 执行 

在 ast pbx outgoing exten() 调 用 _ast i _and dial () 后 ， 随 后 调用 ast request 
() ， 然 后 调用 chan- > tech- > requester () ， 请 求 一 个 用 于 传输 语音 的 信道 ， 

信道 建立 

chan 是 一 个 描述 信道 的 ast_channel 结构 的 实例 。 结构 属 性 中 最 关键 的 部 分 与 tech 有 关 ， 结 
构 ast channel tech 的 一 个 实例 用 来 指定 传输 技术 。 由 于 chan- > tech- > fequestet () 已 经 定义 
为 函数 指针 ， 所 以 这 里 我 们 打算 采取 的 情况 是 sip request call ( ca 回调 函数 以 便 请 求 
一 个 基于 SIP 的 信道 。 最 终 获 得 一 个 信道 ， 并 且 信 道 标识 符 也 将 沿路 返回 给 ast pbx outgoing ex- 
ten 以 便 未 来 其 他 上 层 程 序 使 用 ， 

位 于 channels/chan sip.c 中 的 sip request call () 检 查 是 否 有 指定 的 编 解码 器 的 支持 ， 如 
果 有 ， 就 调用 sip alloc () 建立 一 个 SIP 的 专用 数据 记录 sip pvt。sip pvt 结构 由 数 十 个 在 会 话 注 
册 期 间 描述 SIP 会 话 的 专用 私人 对 话 的 内 容 和 呼叫 占 位 的 元 素 组 成 ,例如 ， 主 叫 方 标识 符 、IP 地 址 、 
能 力 、SDP 会 话 标识 符 和 RTP 套 接 字 描 述 符 

线程 派生 

ast pbx outgoing exten () 既 可 以 调用 ast pbx _ start() 也 可 调用 ast pbx run () 继续 拨 
号 ,这 取决 于 这 是 否 是 到 相同 目的 地 的 第 一 次 调用 。 如 果 它 确实 是 第 一 次 呼叫 ， 就 创建 一 个 服务 线程 
来 执行 ppbx thread () ， 随 后 调用 ast pbx run()， 并 将 呼叫 计数 递增 1， 

在 图 6-55 中 ， ast pbx run() 作 为 呼叫 的 主要 服务 进程 ,使 用 ast calloc () 为 信道 建立 专用 
PBX 结构 并 使 用 ast cdr alloc() 记 录 调 用 活动 的 CDR 结构 。 然 后 ， 它 针对 这 种 上 下 文 /扩展 的 所 有 
优先 级 进行 循环 ,使 用 ast spawn extension() 执 行 指 定 的 应 用 程序 直到 触发 了 挂 断 事件 并 由 ast 
handup () 处 理 ( 即 以 前 注册 的 挂 断 动作 ) 。 在 ast spawn extension () 内 部 ， 如 前 所 述 ， 预 注册 的 
回调 函数 sip request call () 被 调用 以 便 构建 描述 SIP 会 话 的 PVT 结构 。 之 后 在 sip _ request call 
() 执行 期 间 还 通过 执行 ast rtp new with pbindaddr() (未 在 本 图 中 显示 ) 发 起 一 个 RTPARTCP 传 
输 并 且 分 配 PVT 结构 。 








_ast. pbx_run() [main/pbx.c] 


ast_calloc() Lamedr el 
ast_cdr_alloc() [main/cdr.c] 


ast_spawn_extension() [main/pbx.c] 








sip_request_call() [channels/chan_sip.c] 


ast_hangupO [main/ehannel.e] 











图 6-55 ast pbx_run () 末 数 的 内 部 


A 


336 | | | 和 6 有 





练习 

1. 查找 将 sip request call () 注 册 为 回调 函数 的 .c 文 件 以 及 其 中 具体 的 代码 行 ， 
2. 描述 sip pvt 结构 并 解释 该 结构 中 的 重要 变量 

3. 查找 为 SIP 会 话 建 立 RTPARTCP 传输 的 .ec 文件 及 其 具体 的 代码 行 


6.8 流 媒体 

2000 年 前 后 光纤 骨 十 网 的 巨大 投资 之 前 ， 作 为 一 种 软 实时 应 用 ， 流 媒体 与 20 世纪 90 年 代 末 的 
VolP 相 比 ， 更 快 流行 起 来 。 它 可 以 吸收 ， 因 此 适应 比 VolP 高 得 多 的 延迟 和 抖动 ， 在 本 和 节 中 ， 我 们 首先 
介绍 流 媒 体 客户 端 和 服务 右 的 体系 结构 和 组 件 。 然 后， 我 们 描述 常见 的 压缩 /解压 缩 技 术 ， 它 们 大 大 地 
降低 了 视频 /音频 位 速率 ， 有 利于 网 络 传输 。 接 下 来 介绍 并 比较 两 种 流 媒 体 机 制 ， 实 时 流 协 议 (RTSP) 
向 HTTP 流 。 介 绍 包 括 流 中 QoS 控制 和 同步 等 高 级 问题 ， 最 后 ， 作 为 开源 实现 的 例子 介绍 达尔 文 流 媒 
体 服务 器 ( DSS) 


6. 8.1 简介 

传统 的 多 媒体 娱乐 大 多 数 是 在 播放 之 前 通过 存储 或 下 载 到 客户 端 PC 上 进行 的 。 然 而 ， 这 种 边 下 载 
边 播放 的 方式 不 能 支持 现场 直播 节日 ， 并 且 例 如 对 于 录制 好 的 节目 在 开始 播放 时 需要 大 的 延 时 以 及 在 
容 户 端 上 需要 大 容量 存储 。 其 日 的 是 为 了 克服 这 些 流 媒 体 的 缺点 ， 用 来 即时 向 观众 分 发 直播 或 录制 好 
的 媒体 流 。 与 边 下 载 边 播放 的 模式 不 同 ， 电 影 的 初始 部 分 一 旦 到 达 容 户 端 就 可 播放 了 。 然 后 ， 传 输 和 
播放 是 并 发 或 交错 进行 的 。 流 媒体 电影 其 实 从 未 真正 下 载 过 ， 因 为 分 组 一 旦 播放 完 后 就 会 丢弃 。 用 这 
种 方式 ， 既 节省 了 客户 端 启 动 延迟 和 存储 的 开销 ， 又 能 够 支持 现场 直播 节日 

为 了 形成 流 媒 体系 统 ， 需 要 很 多 功能 。 例 如 ,需要 一 种 压缩 机 制 将 来 自 数码 相机 的 视频 和 音频 数 
据 转 换 成 合适 的 格式 。 我 们 还 需要 专用 的 传输 协议 用 于 实时 数据 传输 。 必 须 提 供 Qos 控制 ， 以 确保 平 
滑 的 流 媒体 会 话 。 客 户 端 震 要 以 硬件 或 软件 的 解压 缩 器 或 解码 器 和 播放 机 制 以 适应 延迟 、 抖 动 和 损失 
需要 一 些 同 步 机 制 以 协调 视频 和 音频 的 播放 

流 媒体 的 体系 结构 如 图 6-56 所 示 ， 通 常 有 两 种 类 型 的 参与 者 ; 分 发 媒体 内 容 的 流 媒 体 服务 器 和 参加 
多 媒体 会 话 的 很 多 客户 端 ， 一 般 的 流 媒 体 处 理 概括 如 下 : 来 自 录音 设备 的 原始 视频 和 音频 数据 需要 进行 
压缩 ， 即 编码 ， 并 存储 在 存储 设备 中 。 当 收 旬 客户 端的 请 求 时 ， 流 媒体 服务 器 检索 通过 传输 协议 发 送 的 
存储 内 容 。 发 送 内 容 之 前 ， 调 用 革 些 应 用 程序 级 的 QoS 控制 模块 ， 根 据 网 络 状 态 和 QoS 要 求 调整 位 流 ， 










服务 器 客户 端 


视频 / 音频 
原始 数据 








图 6-56 流体 系 的 结构 和 组 件 
在 客户 端 成 功 接收 后 ， 分 组 通过 传输 层 然后 由 接收 方 的 QoS 异 块 处 理 ， 并 最 终 在 视频 /音频 解码 器 
解码 ， 在 分 组 播放 之 前 ， 执 行 媒 体 同步 机 制 以 便 同 步 视频 和 音频 表示 - 我 们 在 接 下 来 的 三 个 小 节 中 音 
述 这 些 组 件 
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6. 8.2 压缩 算法 

事实 上 ， 原 始 视 频 / 音 频数 据 是 三 大 的 。 数 十 秒 原 始 的 
一 个 电视 标准 ) 文件 将 占用 高 达 300 MB 的 存储 空间 ， 这 
人 够 小 的 能 在 Web 上 播放 的 视频 文件 的 原因 

讨 缩 算法 分 析 并 删除 或 更 改 位 ， 以 便 在 尽 可 能 减少 文件 大 小 和 位 速率 的 同时 保留 原始 内 容 的 
完 束 性， 通常 些 检查 上 天 缩 算法 的 3 个 特点 : 时 间 和 空间 、 有 损 或 无 损 ， 对 称 或 不 对 称 ， 


的 、 未 让 缩 的 NTSC ( 国家 电视 系统 委员 会 ， 
就 是 为 什么 非常 需要 压缩 ， 尤 其 是 要 创建 / 


空间 和 时 间 
空间 压缩 寻找 静止 帧 中 类 似 的 模式 或 重复 。 例如， 在 一 张 包 括 蓝 天 的 图 片 中 ， 空 间 卜 缩 会 注意 一 
个 特定 的 区 域 ， 即 天 空 ， 它 包含 了 类 似 的 像素 ， 通 过 录制 更 短 的 位 流 来 表示 “指定 的 区 域 是 浅 蓝 色 ” 


来 捍 脱 描述 成 干 1 万 的 重复 像素 的 儿 担 ，ITU-T 和 1SO 识别 的 元 乎 所 有 视频 压缩 方法 /格式 都 采用 离散 
余弦 (DCT) 实现 空间 元 余 的 减少 
另 一 方面 ， 时 间 卡 缩 则 是 查找 帧 序列 的 变化 ， 例如， 在 一 次 谈话 的 视频 剪辑 中 ， 因 为 在 通常 情况 
下 ， 它 只 有 话 简 侈 动 ， 时 间 上 压缩 只 会 注意 到 环绕 话 简 的 像素 更 改 。 它 与 第 一 帧 比较 ， 这 是 经 过 全 面 描 
述 的 并 称 为 关键 帧 ， 接 下 来 的 称 为 增 量 帧 ， 用 以 发 现 变化 .关键 帧 之 后 ， 只 在 随后 帧 中 保留 更 改 信息 
如 凡 有 一 个 场景 变化 刷 么 它 的 大 部 分 内 容 与 前 一 帆 不 同 ， 它 就 将 新 场 晨 的 第 一 帧 标 为 下 一 个 关键 帧 ， 
诈 继 续 将 后 续 帧 与 这 一 新 的 关键 帧 进行 比较 。 因 些 ， 和 iene 敏感。 运动 
图 像 专 家 组 (MPEG) 标准 中 最 流行 的 一 种 视频 编 解 但 迪 
注意 ， 这 两 种 技术 并 不 相互 排斥 例如， 几乎 所 有 的 guiskTimae ei 
无 损 或 有 损 
不 委 算 法 是 无 损 还 是 有 损 到 决 于 解 不 缩 文件 时 是 否 能 够 恢复 所 有 的 原始 数据 。 对 于 无 损 压 缩 ， 原 
先 该 文件 中 的 每 一 个 数据 位 经 过 文件 解压 缩 后 仍 保持 不 变 。 所 有 的 信息 都 完全 恢复 这 通常 是 文本 或 
电子 表格 文件 选择 使 用 的 技术 ， 如 果 玉 失 文 字 或 财务 数字 肯定 会 带 来 问题 。 对 于 多 媒体 数据 ， 图 形 交 
换 (GIF) 是 一 种 用 于 在 Web 上 的 提供 无 损 奈 缩 的 图 像 格式 。 其 他 格式 包括 PNG 和 TIFF 
一 方面 ， 有 损 床 缩 通 过 永久 地 消除 某 些 信息 特别 是 宛 余 信息 来 缩减 文件 。 当 解压 缩 文件 时 ， 哇 
然 | 用 ,本 能 没有 注意 和 到 ， 但 只 有 部 分 的 原始 信息 保留 下 来 有 损 故 缩 通 凋 用 于 视频 和 音频， 大 多 数 用 
户 检 测 不 到 一 定量 的 信息 天 失 。JPEG 网 像 文件 通常 用 在 Web 上 的 照片 和 其 他 复杂 的 静止 图 像 ， 它 是 
er 使 用 JPEG 斥 缩 ， 编 辑 者 能 够 决定 引进 多 少 损失 并 在 文件 大 小 和 图 像 质 量 之 间 进 行 折 中 。 
视频 压缩 标准 (如 MPEG4 和 .264) 也 采用 比 无 损 方 案 相对 较 大 压缩 比 的 有 损 压 缩 。 
对 称 或 不 对 称 
对 称 和 不 对 称 之 间 的 主要 区 别 在 于 压缩 和 解压 缩 所 汰 要 的 时 间 。 对 称 方法 压缩 和 解压 缩 的 时 间 是 相 
辣 的 ， 而 采用 不 对 称 方法 时 它们 是 不 同 的 。 更 具体 地 说 ， 不 对 称 意味 着 它 需 要 更 多 的 时 间 来 压缩 多 媒体 
数据 ， 在 某 种 意义 二， 申 此 产生 的 质量 也 会 较 高 。 因此 ， 流 媒体 服务 咒 一 般 进 行 不 对 称 文件 斥 缩 〈 如 
| 人 AVI 视频) 以 减轻 压缩 负荷 ， 并 向 客户 端 提供 满意 的 质量 。 尽管 如 此 ， 对 于 通过 手机 的 实时 视 
频 会 议 ， 经 常 使 用 对 称 编 解码 ， 如 H. 264 .目前 编码 需 硬 件 根 本 就 没有 强大 到 足以 支持 不 对 称 方案 。 


6.8.3 流 媒 体 协 议 


图 6-57 是 流 媒 体 协 议 栈 。 虽 然 还 有 其 他 的 专用 流 媒 体 协议 ， 但 这 时 我 们 介绍 公共 领域 中 经 常 使 用 
的 两 种 流 媒 体 机 制 : RTSP 和 HTTP 














图 6-57 流 媒 体 浴 议 栈 
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实时 流 媒体 协议 

实时 流 媒 体 协 议 {RTSP) 是 一 种 客户 端 / 服 务 器 的 多 媒体 会 话 控制 协议 ， 无 论 是 大 批 观众 (组 播 ) 
还 是 媒体 点 播 单个 浏览 器 ( 单 播 ) 都 能 很 好 地 工作 。 其 主要 功能 之 一 ， 就 是 建立 和 控制 流 媒 体 服务 天 
和 客户 端 之 间 的 视频 和 音频 媒体 。 流 控制 方式 是 指 可 以 通过 使 用 电子 邮件 客户 端 获 得 定义 在 服务 器 端 
的 播放 说 明文 件 。 它 声明 编码 、 使 用 的 语言 、 传 给 功 能 和 其 他 参数 ， 使 客户 端 选择 最 合适 的 媒体 组 合 
它 还 支持 类 似 于 VCR 的 控制 操作 ， 如 停止 、 暂 停 /恢复 、 快 进 、 快 退 。 类 似 于 SIP，RTSP 协议 也 可 以 
邀请 其 他 人 参与 现 有 的 流 媒体 会 话 - 总 之 ， 它 具有 以 下 属性 : 

1) HTTP 的 友好 性 和 可 扩展 性 二 于 RTSP 类 似 于 HTTP 有 ASCII 字符 串 的 句法 和 消息 格式 ， 所 以 
RTSP 消息 就 可 以 由 标准 的 HTTP 分 析 器 解析 ， 而 同时 ， 可 以 很 容易 地 添加 更 多 的 方法 ，URL 和 状态 代 
但 也 可 以 重用 。 

2) 独立 的 传输 ”通过 客户 端 和 服务 融 之 间 的 传输 协商 ，UDP 和 TCP 都 可 以 用 来 提供 RTSP 消息 控 
制 。 然而，TCP 并 不 适 于 传输 多 媒体 播放 ， 这 依赖 于 基于 时 间 的 操作 还 是 大 规模 的 广播 。 通过 TCP 的 
HTTP 流 媒 体 将 在 后 面 学 习 。 两 种 传输 协议 下 的 默认 端口 都 是 554 

3) 能 力 协商 例如， 如果 不 在 服务 顺 上 实现 搜寻 ， 客 户 端 就 必须 在 用 户 接口 中 禁止 移动 滑动 位 置 
指示 带 

RTSP 方法 

通过 请 求 中 的 URL 指示 资源 有 多 种 实现 方法 。 与 只 能 由 客户 端 发 起 请 求 的 HTTP 不同， 支持 RTSP 
的 流 媒 体 服务 器 可 以 与 客户 端 通信 以 便 通 过 ANNOUNCE 更 新 播放 说 明文 件 ， 可 以 使 用 GET PARAMETER 
作为 “ping” 检 查 客户 端的 健康 。 以 下 是 在 RTSP 实现 中 必须 支持 的 某 些 方法 以 便 执行 基本 的 RTSP 
会 话 

1) OPTIONS 当 客 户 端 尝试 一 个 非 标准 的 请 求 时 ， 可 能 发 出 oPTIONS 请 求 。 如 果 该 请 求 得 到 服 
务 器 的 允许 ， 就 返回 一 个 200 OK 响应 。 

2) SETUP 当 在 URL 中 检索 数据 流 时 ， 用 来 指定 传输 机 制 ， 

3) PLAY PLAY 方法 通知 服务 器 使 用 SETUP 中 指定 的 传输 机 制 开 始 发 送 数据 ， 请 求 头 部 的 一 些 
参数 可 以 设置 额外 的 功能 .例如 ,将 “缩放 ”设置 为 2， 意 思 是 加 倍 观 看 速率 ， 即 快 进 

4) TEARDOWN ”这 是 停止 一 个 特定 URL 员 须 甘 的 交 关闭 相应 的 会 话 ， 直 到 发 出 另 一 个 SETUP 
请 求 

HTTP 流 媒 体 

除了 RTSP 协议 外 ， 还 可 以 通过 HTTP 传输 流 视频 和 音频 内 容 ， 这 也 称 为 伪 流 媒体 ,诀窍 是 客户 端 
需要 缓冲 当前 媒体 内 容 ， 这 是 通过 TCP 以 可 能 高 于 播放 器 需要 的 带宽 发 送 ， 并 从 缓冲 区 中 播放 。 然 
而 ， 由 于 TCP 重 传 性 质 ， 它 在 发 送 后 续 分 组 之 前 会 重 发 丢失 的 分 组 ， 所 以 它 就 更 可 能 导致 主要 分 组 的 
于 人 弃 、 低 性 能 、 高 时 延 拌 动 。 因 此 它 就 不 能 提供 UDP 和 RTSP 那么 多 的 内 容 。 在 5.5.1 节 中 己 经 提 到 
了 这 些 问 题 。 虽然 这 种 方法 并 不 稳健 、 有 效 ， 但 它 在 没有 RTSP 支持 时 作为 一 种 合理 和 方便 的 替代 能 
够 提供 小 规模 的 流 媒体 内 容 








历史 演变 : Realplayer、 媒 体 播 放 器 、QuickTime 和 YouTube 的 流 媒 体 

从 1995 年 RealNetworks 引 eset 多 媒体 播放 器 厂商 开始 补充 自己 产品 线 的 流 媒体 功能 

这 样 就 产生 了 三 大 阵营 : 微软 〈 媒 体 播放 器 ) 、 革 果 (QuickTimne) 和 先驱 RealNetworks ( RealPlayer ) ， 

除了 这 些 外 ， 其 他 播放 器 的 市 场 规模 都 小 得 和 尽管 如 此 ， 为 了 流 形成 一 个 完整 的 解决 方案 ， 播 放 器 
还 需要 与 内 容 提 供 商 ( 即 一 台 服 务 器 ) 合并 。 为 此 微软 有 Windows 媒体 服务 器 (专用 )， 而 苹果 有 
QuickTime 流 媒 体 服务 器 (专用 ) 和 达尔 文 流 媒体 服务 器 (开源 )， 以 及 RealNetworks 配备 了 Helix 
DNA 服务 器 (同时 支持 专用 和 开源 版 本 )。 

虽然 RTSPARTCPARTP 基于 公共 传输 体系 结构 ， 但 由 于 不 同 的 流 媒 体 容器 格式 (例如 ， 支 持 AVI、 
RM、WMV) 和 许可 证 限制 ， 在 这 些 服务 器 和 播放 器 之 间 不 支持 互 操 作 性 ， 尽管 如 此 ， 一般 都 支持 标 
准 格 式 ， 如 MPEG 
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一 个 迅速 崛起 的 流 媒体 技术 是 通过 Adobe 系统 开发 的 Flash 媒体 服务 器 。 使 用 专用 的 内 容 类 型 
(FLV) 和 传输 方法 (实时 消息 协议 ，RTMP， 通 过 TCP)， 它 已 成 为 通过 HTTP 的 点 播 视频 流 媒 体 的 主 
要 方法 ， 在 本 节 中 称 为 伪 流 媒体 ， 甘 名 的 视频 分 享 门 户 网 站 YouTube， 就 是 采用 这 种 技术 


6. 8.4 服务 质量 和 同步 机 制 

用 户 直 观感 受 问 题 在 网 络 服务 中 一 直 者 是 很 重要 的 。 在 流 媒 体 中 ， 有 两 个 因素 直接 影响 用 户 感知 
的 质量 : 数据 传输 的 服务 质量 (QoS) 控制 和 视频 、 音 频 内 容 的 同步 。 

服务 质量 控制 机 制 

试想 有 一 个 具有 差 的 服务 质量 控制 的 流 媒体 会 话 。 在 通常 负载 的 网 络 下 ， 质 量 一 般 能 够 得 到 满 
足 。 然而 ， 当 网 络 负载 过 重 时 ， 不 断 增加 的 分 组 丢失 率 会 导致 损坏 或 延迟 帧 ， 从 而 导致 差 的 播放 
此 外 ， 由 于 会 话 协调 者 不 了 解 网 络 状况 ， 甚 至 可 能 允许 进入 额外 的 流 媒体 数据 从 而 恶化 所 有 涉及 的 
会 话 质量 

因此 ， 服 务 质量 控制 的 目标 是 在 分 组 丢失 的 情况 下 最 大 限度 地 保证 流 媒 体质 量 
页 量 控制 通常 采用 速率 控制 的 形式 ， 试 图 通 过 使 流速 率 与 可 用 带宽 相 匹配 来 实现 目标 。 这里， 我们 简 
要 介绍 两 种 速率 控制 方法 。 

1) 基于 源 的 速率 控制 ”顾名思义 ， 发 送 方 通过 对 网 络 状 况 的 反馈 ， 或 者 恨 据 一 些 模型 公式 来 调整 
视频 传输 速率 。 反 馈 通 常 是 从 探测 中 获得 的 可 用 带宽 。 速 率 适 配 可 以 使 分 组 丢失 低 于 革 一 国 值 。 也 可 
根据 一 些 类 似 TCP 的 模型 进行 调整 ， 使 分 组 丢失 可 以 像 TCP 一 样 得 到 缓解 

2) 基于 接收 方 的 速率 控制 ”根据 接收 方 的 速率 控制 ， 通 过 添加 或 删除 与 发 送 方 的 信道 ， 接 收 方 完 
成 调节 。 由 于 视频 可 以 分 解 成 不 同 重要 性 的 屋 ， 所 以 每 一 层 都 在 相应 的 信道 中 传输 ， 网 络 可 以 通过 删 
去 层 ， 由 此 删除 不 太 重 要 的 信道 。 

还 有 另 一 种 是 基于 前 两 种 方法 的 混合 版 本 。 在 这 种 版 本 中 ， 通 过 添加 或 删除 信道 接收 方 调整 接收 
速率 ， 而 发 送 方 根据 接收 到 的 反馈 调整 发 送 速率 。 | 除了 速率 控制 外 ,缓冲 区 管理 机 制 (防止 上 涪 或 下 
洪 以 便 实 现 流 畅 地 播放 ) 经 常 应 用 到 接收 方 以 便 更 好 地 容忍 可 能 的 网 络 变 化 

同步 机 制 

用 户 感知 流 媒 体质 量 的 第 二 个 因素 是 视频 和 音频 内 容 是 否 很 好 地 同步 。 网 络 和 操作 系统 可 能 造成 
媒体 流 的 延迟 ， 要 求 媒 体 同 步 以 便 保 证 在 客户 端 多 媒体 播放 的 正确 再 现 

有 二 个 层次 的 同步 : 流 内 同步 、 流 间 同 步 和 对 象 间 同 步 。 下 面 简要 地 进行 介绍 

1) 流 内 同步 ”一 个 流 由 一 序列 需要 产 格 排序 的 和 很 好 间隔 的 依赖 于 时 间 的 数据 单位 组 成 。 没 有 流 
内 同步 ， 流 的 播放 就 可 能 会 被 暂停 、 跳 过 ,或 者 临时 快 进 所 干扰 . 

2) 流 间 同步 ”由 于 多 媒体 会 话 主 要 由 视频 和 音频 流 组 成 ， 所 以 不 合适 的 流 间 同 步 会 导致 如 嘴唇 形 
状 和 扬 声 右 声音 之 间 的 不 匹配 

3) 对 象 间 同 步 ” 流 媒体 内 容 可 以 进一步 抽象 为 对 象 级 ， 从 而 分 为 两 大 类 : 依赖 于 时 间 的 对 象 
(用 在 上 上述 两 项 方案 中 ) 和 独立 于 时 间 的 对 象 。 独 立 于 时 间 的 一 个 很 好 的 例子 是 出 现在 屏幕 边缘 的 商 
业 广 告 或 图 像 ， 无 论 视 频 还 是 音频 流 ， 作 为 一 种 对 象 间 同 步 的 结果 ， 商 业 广 告 可 能 会 错误 地 显示 ， 比 
如 说 ， 它 不 应 该 出 现 的 一 则 新 闻 报 道中 。 





开源 实现 6.7: 达尔 文 流 媒体 服务 器 

概述 

达尔 文 流 媒体 服务 器 (DSS) 是 苹果 公司 QuickTime 流 媒体 服务 器 (QTSS) 的 开源 版 本 ,DSS 允 
许 用 户 通过 互联 网 利用 RTP 和 RTSP 发 送 流 媒 体 。 用户 可 以 收听 到 现场 或 预先 录制 好 的 节目 播放 ， 或 
者 他 们 也 可 以 根据 需要 查看 提供 预先 录制 好 的 节目 。 DSS 提供 了 高 度 的 可 定制 性 ， 开 发 人 员 可 以 扩展 
和 修改 现 有 的 模块 以 满足 他 们 的 需求 。 运行 在 各 种 操作 系统 上 的 DSS 支持 各 种 多 媒体 格式 ， 包 括 
H.264/MPEC-4 AVC、MPEG-4 Part 2 、3CP 和 MP3， 此 外 ，DSS 提供 一 种 易于 使 用 的 基于 Web 的 管理 、 
身份 认证 、 服 务 器 端 播放 列表 、 中 继 支 持 和 集成 的 广播 者 管理 - 
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框图 

DSS 可 以 分 为 两 个 部 分 : 核心 服务 器 和 模块 。 图 6-58 显示 了 DSS 框图 ， 核 心服 务 器 就 像 是 客户 端 
和 模块 之 间 的 接口 以 便 提 供 任 务 调度 ， 而 模块 被 任务 对 象 调用 以 便 提 供 特定 的 功能 。 对 象 在 后 面 的 数 
据 结构 中 定义 .在 这 样 的 框架 下 ，DSS 可 以 支持 从 接受 客户 端 请 求 、 资 源 分 配 、 调 度 请 求 、 暂 停 请 求 、 
流 媒体 程序 ， 到 与 客户 进行 交互 循环 以 便利 用 资源 的 异步 操作 

为 了 解释 两 种 对 象 ( 套 接 字 事 件 和 任务 ) 之 间 的 关系 ,我 们 说 明 客 户 端 连 接 是 如 何 处 理 的 。 当 
DSS 接受 来 自 客 户 端的 连接 时 ， 将 捕获 套 接 字 事件 并 向 RTSP Listener Socket 任务 对 象 发 信号 。 如 





核心 服务 器 





MainThread 











服务 器 支持 
访问 控制 











一 一 > 请 求 和 响应 一 和 调用 借 块 一 加 与 倍 号 相关 的 任务 
调度 中 的 套 接 字 处 理 中 的 套 接 字 围 调 诺 中 的 什 5 正在 处 理 
@ sf @ 习作 图 调度 中 的 任务 中 中 的 任务 





图 6-58 ”DSS 框图 


果 一 切 顺 利 ，RTSP Listener Socket 任务 对 象 将 创建 一 个 新 的 RTSP Session 任务 对 象 来 处 理 这 个 
RTSP 会 话 。 接 下 来 ， 客 户 端 可 以 发 送 一 条 PLAY 命令 请 求 媒 体内 容 。 处 理 此 命令 后 ，RTSPSession 
任务 对 象 可 以 创建 一 个 新 的 RTPSession 任务 对 象 ， 然 后 将 它 以 连续 不 断 的 流 媒 体内 容 返回 给 客户 
端 。 这 两 个 任务 对 象 将 持续 下 去 ， 直 到 客户 端 发 送 一 个 TEARDOWN 命令 来 关闭 这 个 RTSP 会 话 为 止 。 

模块 可 以 静态 编译 也 可 以 动态 链接 。 有 三 种 类 型 的 模块 : 1) 内 容 管 理 模块 ， 管 理 与 媒体 源 (如 
存储 文件 或 直播 ) 相关 的 RTSP 请 求 和 响应 ; 2) 服务 器 支持 模块 ， 它 执行 服务 器 数据 收集 和 日 志 记 录 

功能 ; 3) 访问 控制 模块 ， 它 提供 身份 认证 和 授权 功能 以 及 URL 路 径 操 作 。 当 流 服务 器 开始 运行 时 ， 

核心 服务 器 加 载 和 初始 化 这 些 模块 。 

ei 告 构 

了 了 解 核 心服 务 器 是 如 何 工作 的 ， 首 先 我 们 应 该 知道 任务 是 什么 。 图 6-59 显示 了 DSS 的 重要 对 

象 类 er 一 个 任务 就 是 一 个 对 象 实例 ， 它 直接 或 间接 地 从 类 Task 
中 继承 而 来 ， 因 此 可 以 在 TaskThread 的 fHeap 和 fTaskQueue 中 调度 。 虽然 fTaskQueue 是 一 个 
FIFO 队列 ， 但 在 fHeap 内 的 任务 会 根据 其 预期 的 唤醒 时 间 被 弹出 。 


fHeap 
fTaskQueue 1- : 


fEvents 
“fTimerHeapElem : 
fTaskQueueElem |- 


Signal() 
Run() 


从 …… 继 斥 而 来 ”一 一 一 -> 指向。 = 届 于 …… 的 元 素 
图 6-59 重要 类 之 间 的 关系 
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利用 在 fFvents 变量 中 特定 事件 的 标记 ，signal () 用 : 度 任务 对 象 进 入 到 Take Thread 的 
fTaskQueue 中 。 当 任务 对 象 操 作 时 ， 虚 函数 Run () 提供 了 wm 在 一 般 情 况 下 ，Run 
0 根据 fEvents 变量 中 标记 的 事件 运行 

算法 实现 

任务 处 理 

DSS 使 用 一 组 预先 派生 的 线程 支持 这 里 提 到 的 操作 。 这 与 Apache 和 wu-ftpd 等 在 整个 会 话 期 间 专 
用 一 个 线程 服务 于 客户 端的 其 他 服务 器 是 不 同 的 .DSS 的 Task 任务 可 以 支持 不 同 的 线程 之 间 的 切换 和 
调度 .这 种 类 似 于 操作 系统 设计 的 原因 来 自流 媒体 应 用 的 长 的 会 话 生命 周期 。 在 这 种 情况 下 ， 少 数 几 
个 线程 就 可 以 处 理 大 量 重 滞 的 会 话 

如 图 6-60 所 示 ， 除 了 MainThread 外 ， 在 核心 服务 器 中 还 有 三 种 类 型 的 线程 : 1) EventThread 
(事件 线程 ); 2) TaskThread (任务 线程 ); 3) IdleTaskThread (空闲 任务 线程 ) 。 从 Event- 
Context 类 继承 的 对 象 将 fRef 注册 到 EventThread 的 fRefTable 中 。 一 旦 一 个 客户 端 连 接 DSS 
或 者 发 送 一 个 命令 给 DSS，EventThread 将 获得 套 接 字 事件 ， 然 后 从 fRefTable 找到 关联 的 Even- 
tContext， 执 行 它 的 ProcessEvernt () 以 便 发 信号 给 由 fTask 指向 的 相关 任务 对 象 ， 对 客户 端 做 


Event/hread x | ee 
| : EventContext-> EventContext-> 
ProcessEvent( ) ProcessEvent( ) 


一 根据 实现 , 可 能 ~ ' 


触发 这 些 函 数 
timeout= 
Task->Run() 
! g 








































Task->Signal() 广 十 





























IdleTask-= 
Setldle Timer() | 1 


一 一 > 胃 数 测 用 一 一 一 > 任务 分 号 一 一 > 套 接 字 事件 注册 
图 6-60 任务 处 理 

当 向 任务 对 象 发 信号 时 ， 它 会 以 循环 的 方式 分 配给 人 个 TaskThreads 之 一 并 放 入 fTaskQueue 
中 。TaskThread 将 首先 检查 在 fHeap 中 是 否 有 睡眠 时 间 已 经 到 期 的 任务 。 如果 没 有 ， 它 将 接着 检查 
fTaskQueue。 一旦 TaskThread 得 到 一 个 任务 ， 它 就 调用 该 任务 的 Run () 实现 ， 处 理 在 fEvents 变 
量 中 标记 过 的 事件 ,根据 Run () 的 返回 值 ， 任 务 将 被 删除 或 者 放 入 fHeap 稍 后 再 进行 处 理 。 

一 旦 调用 一 个 IdleTask 对 象 的 SetIdleTimer， 它 也 是 一 个 任务 对 象 ， 任 务 对 象 就 被 放 入 fIdle- 
Heap 等 待 睡 眠 时 间 到 期 。 这 类 似 于 将 任务 对 象 放 入 TaskThread 的 fHeap 中 ， 但 不 同 的 是 ， 从 fIdle- 
Heap 弹出 任务 对 象 后 ，IqleTaskThread 什么 也 不 做 ， 而 是 发 信号 让 任务 对 象 再 次 获得 调度 

根据 Run () 和 ProcessEvent () 的 不 同 实现 ， 可 以 调用 如 RequestEvent () 、Signal () 和 
SetIdleTimer () 函数 用 于 将 被 调度 的 任务 。 如何 设 计 任 务 适 合 于 像 DSS 这 样 的 系统 是 程序 员 的 另 一 
个 工作 

RTSP 会 话 处 理 

当 RTSPListenerSocket 对 象 接受 一 个 连接 时 ， 它 就 创建 一 个 RTSPSession 对 象 ， 并 使 这 个 对 
此 可 调度。 在 RTSPSession 类 的 Run () et 内 部 ， 有 一 个 良好 定义 的 状态 机 ， 它 用 来 跟踪 RTSP 处 
理 的 进程 状态 。 因 为 真正 的 状态 迁移 图 太 过 复杂 难以 在 这 里 描述 ， 所 以 我 们 将 它 简 化 成 如 图 6-61 所 示 
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的 图 。 从 Reading First Request 开始 ， 如 果 RTSP 会 话 的 第 一 个 请 求 是 用 于 HTTP 隧道 ， 那 么 状 态 
切换 到 HTTP Tunnel 以 便 处 理 HTTP 隧道 

如 果 它 是 一 个 通用 RTSP 请 求 ， 那 么 状态 将 经 过 filtering Request 来 解析 请 求 ，Routing Request 
将 请 求 路 由 到 内 容 目 录 ，Access Control 用 于 身份 认证 和 授权 ，Processing Request 用 于 RTP 会 话 建 
立 和 计 费 ， 所 有 上 述 这 4 个 状态 使 用 相关 模块 提供 功能 ， 在 将 响应 返回 给 客户 端 并 为 处 理 该 请 求 清理 数 
据 结构 后 ， 状 态 返 回 到 Reading Request 等 待 下 一 个 RTSP 请 求 


TT 





处 理 HTTP _ 隧道 请 求 首 先 读 请 求 通 用 RTSP 
隧道 请 求 















访问 控制 





图 6-61 RTSP 处 理 状态 迁移 图 
练习 
1. 找 出 在 什么 情况 下 ，DSS 核心 服务 器 会 将 RTSPListenerSocket 对 象 放 入 IdleTaskThread 
的 fIdleHeap 中 等 待 . 
2. 请 参阅 函数 Task:: Signal () 。 解 释 将 一 个 Task 对 象 分 配给 TaskThread 的 步骤 。 


6. 9 对 等 应 用 程序 

在 20 世纪 90 年 代 ， 因 为 各 种 原因 客户 端 / 服 务 器 模型 被 认为 是 互联 网 应 用 的 可 扩展 解决 方案 。 例 
如 ， 用 户 的 计算 机 在 计算 能 力 和 存储 方面 是 一 个 哑 终 端 。80-20 规则 表明 ， 大 多 数 的 网 络 流量 专门 用 于 
检索 最 流行 的 网 页 。 过 去 已 经 证 明 一 个 强大 的 服务 占 能 够 用 于 存储 信息 并 以 高 效 、 稳 定 、 可 扩展 的 方 
式 共 享 。 然 而 ， 随 着 计算 能 力 、 网 络 带 宽 、 个 人 计算 机 的 硬盘 存储 疑 的 快速 增长 ， 用 户 的 计算 机 不 青 
处 于 默默 无 闻 的 地 位 。 此 外 ， 随 着 家 庭 宽 任 接 和 人 的 盛行 ， 更 多 的 计算 机 充当 总 是 待 在 互联 网 上 的 服务 
融 。 因 此 ， 近 年 来 开发 了 更 多 基于 对 等 ( P2P) 体系 结构 的 互联 网 应 用 程序 。 这 些 应 用 程序 不 仅 向 互 
联网 中 引入 一 种 新 的 通信 模式 ， 而 且 也 是 一 种 新 的 创造 性 思想 和 商业 模式 。 值 得 注意 的 是 ， 根 据 Cach- 
eLogic 的 报告 ，P2P 已 经 占据 互联 网 流量 的 60% ， 

这 里 ， 我 们 从 4 个 方面 介绍 P2P 应 用 程序 : 1) P2P 操作 的 一 般 概述 ; 2) 多 种 P2P 体系 结构 的 评 
估 ; 3) P2P 的 性 能 问题 ; 4) 流行 的 P2P 文件 共享 应 用 程序 Bit-Torrent (BT) 案例 学 习 和 它 的 开源 实 
现 ， 鉴于 P2P 的 复杂 性 行为 ， 与 本 草 中 其 他 章节 相 比 建议 读者 对 本 节 更 为 重视 。 


6.9.1 简介 

与 客户 端 /服务 器 模型 不 同 ，P2P 是 一 种 分 布 式 体系 结构 ， 其 中 的 参与 者 既 充 当 客户 端 又 充当 服务 
器 ， 在 P2P 网 络 中 的 参与 者 通常 是 普通 的 用 户 计算 机 。 基 于 某 些 P2P 协议 ,它们 可 以 在 底层 IP 网 络 之 
上 -的 应 用 层 构 建 一 个 虚拟 覆盖 网 络 ， 如 图 6-62 所 示 。 在 覆盖 网 络 中 的 网 络 节 点 是 参与 者 ， 而 一 条 重 竺 
禾 盖 链 路 通常 是 一 条 在 两 个 参与 者 之 间 的 TCP 连接 。 例 如 ， 在 图 6-62 中 Pl 和 P2 之 间 的 虚拟 链 路 是 一 
条 通过 底层 P 网 络 中 路 由 器 RI 、R2 、R3 的 TCP 连接。 在 P2P 网 络 中 的 参与 者 称 为 对 等 ， 因 为 它们 被 
认为 扮演 同等 的 角色 ， 即 作为 资源 的 消费 者 又 作为 资源 的 生产 者 。 对 等 能 够 共享 它们 自己 的 部 分 资源 ， 
如 处 理 能 力 、 数 据 文件 、 存 储 容量 和 网 络 连接 容量 ， 通 过 直接 通信 而 不 用 经 过 中 间 节 点 。 

通常 , P2P 系统 中 的 操作 包括 3 个 阶段 : 加 入 P2P 覆盖 网 络 、 资 源 发 现 和 资源 检索 。 首 先 ， 一 个 对 
等 通过 某 些 加 入 步骤 加 入 到 P2P 覆盖 网 络 中 。 例 如 ， 一 个 对 等 发 送 一 个 加 入 网 络 的 请 求 给 它 知道 的 一 
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个 引导 服务 器 ， 以 便 获 得 在 该 覆盖 网 络 中 已 经 存在 的 对 等 列表 ， 当 然 也 可 以 通过 手动 配置 获得 。 加 入 
P2P 禾 盖 网 络 后 ， 对 等 通常 尝试 在 网 络 中 搜索 由 其 他 对 等 共享 的 对 象 。 如 何在 分 布 式 网 络 中 搜索 对 象 
是 P2P 面临 的 最 大 挑战 。 搜 索 算法 可 以 基于 集中 式 目 录 服 务 带 、 请 求 洪 泛 ， 或 分 布 式 散 列表 (DHT)， 
这 取决 于 底层 的 P2P 体系 结构 。 我 们 将 介绍 不 同 的 P2P 体系 结构 。 如 果 搜 索 成 功 ， 对 等 将 获得 资源 持 
有 人 的 信息 ， 如 他 们 的 IP 地址。 检索 共享 对 象 很 简单 ， 就 像 吉 接 的 TCP 连接 可 以 在 搜索 对 等 和 资源 持 
有 人 之 间 建 立 一 样 。 然 而 ， 考 虑 到 持 有 人 的 上 传 带宽 、 并 发 下 载 、 持 有 人 意外 断 线 、 中 断 对 等 后 重新 
连接 到 互联 网 时 如 何 恢复 下 载 等 因素 ， 可 能 需要 复杂 的 下 载 机 制 。 
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图 6-62 在 底层 卫 网 络 之 上 的 P2P 图 辣 网 络 
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历史 演变 ; 流行 的 P2P 应 用 
除了 文件 共享 外 ，P2P 还 有 其 他 的 应 用 。 通 过 邮件 、 音 频 、 视 频 的 P2P 通信 很 流行 ,通过 P2P 的 

流 媒 体 增加 迅猛 ， 用 于 合作 和 研究 的 P2P 计算 也 是 如 此 。 表 6-29 对 流行 的 P2P 应 用 进行 了 分 类 。 一般 
来 讲 ， P2P 应 用 程序 的 整个 操作 过 程 可 以 分 为 PPP 和 非 P2P 部 分 ,在 P2P 应 用 的 初始 阶段 ， 参 与 者 通 

常 连接 到 某 一 预先 配置 好 的 服务 器 以 获取 更 新 的 消息 ， 这 是 传统 的 客户 端 /服务 器 关系 。 随 后 ， 参 与 者 
及 攻 六 间 开始 建立 他 们 自己 的 履 盖 连接 以 便 交换 信息 ， 这 就 是 P2P 关系 

表 6-29 ”对 等 应 用 的 分 类 
类 别 应 用 名 称 特 点 
、 ' 从 其 他 地 方 搜索 并 下 载 共享 文件 
炎 件 其 总 Napster 、Limewire 、Gnutella、 . 大 的 文件 可 以 分 成 块 
ee BitTorrent 、eMule 、Kazaa _ 2 
“ P2P 流量 的 最 大 部 分 
: 在 因特网 上 上 的 任何 地 方 免费 呼叫 
IP 电话 Skype “构建 在 Kazaa 之 上 的 P2P 文件 共享 
" 用 于 存在 消息 和 skype 外 出 计 费 的 服务 器 
. 构建 在 P2P 文件 共享 之 上 的 kazzz 
_ Freecast 、Peercast 、Coolstreaming 、 
流 媒体 “ 点播 内 容 的 发 送 
PPLive 、PPStream 3 _ 
:通过 对 等 搜索 并 中 继 流 

















即时 消息 MSN Messenger 、Yahoo Messenger 、 消息 /音频 /文件 交换 
月 辟 、 “ 上 县 / 症 堪 /文件 交 ] 
中 AOL lnstant Messenger、1CQ 汪 a 





: 文档 共享 与 合作 
协作 社区 Microsoft GROOVE :保持 在 用 户 之 间 共 享 数据 的 更 新 
" 集成 消息 和 视频 会 议 


“用 于 科学 计算 
“ 汇聚 了 数 百 万 的 计算 机 搜索 外 星 生命 
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历史 演变 : Web 2.0 社交 网 络 : Facebook、Plurk 和 Twitter 

与 传统 的 Web 1.0 (其 中 内 容 和 服务 仅 由 服务 器 提供 并 且 仅 在 服务 器 上 这 些 信 息 才 是 可 视 的 ) 相 
比 ，Web 2. 0 允许 客户 端 提供 内 容 、 服 务 并 与 对 等 互动 ， 例子 包括 维基 百科 、Web 服务 、 博 客 、 微 博 
和 在 线 社区 等 ， 典型 的 Web 2.0 应 用 程序 ， 允 许 客户 端 通过 电子 邮件 或 即时 消息 与 其 他 人 进行 交互 ， 
更 新 个 人 资料 后 通知 其 他 人 ， 或 者 修改 网 站 的 内 容 。Facebook、Plurk 和 Twitter 属于 Web 2.0 的 社交 网 
络 服务 ， 构 建 与 朋友 联系 的 在 线 社区 ， 并 连接 到 可 信 的 推荐 系统 。 此 外 ，Plurk 和 Twitter 还 提供 微 博 服 
务 ， 它 比 传统 的 博客 小 但 却 限制 了 内 容 的 大 小 。 微 博 中 的 项 目 可 以 由 一 个 简单 句子 、 图 片 或 者 由 10 秒 
的 短视 频 组 成 ， 表 6-30 总 结 了 其 特点 。Facebook 流行 ， 因 为 它 丰富 的 功能 和 应 用 程序 让 它 能 够 更 轻松 
地 与 朋友 交互 ，Plurk 和 Twitter 迎头 赶 上 ， 因 为 它们 能 够 实时 地 与 朋友 分 享 意 见 

表 6-30 ”Facebook，Plurk 和 Twitter 的 特点 
应 用 服务 类 型 特 点 
: 数 以 亿 计 的 活动 用 户 
“超过 200 组 的 不 同 兴 趣 或 专业 知识 
-种 标记 语言 ，Facebook 标记 语言 , 被 开发 者 用 来 定制 其 应 用 

" 涂鸦 墙 : 一 种 为 朋友 邮寄 消息 的 用 户 空间 
" 被 : 一 种 虚拟 提示 (nudge) 以 便 吸引 其 他 人 的 注意 
:照片 : 上 上 传 相片 
- 状态 : 通知 朋友 有 关 自 己 的 行踪 和 行为 
“礼物: 向 朋友 发 送 虚 拟 礼物 
市场: 邮寄 免费 分 类 广告 
活动 : 通知 朋友 有 关 更 新 事件 
:视频 : 共享 家 庭 制作 的 视频 
" 异步 游戏 : 将 用 户 的 移动 保存 在 站 点 并 且 下 次 移动 可 以 在 任何 时 候 进 行 








Facebook 社 交 网 络 





， 短 消息 (最 多 有 140 个 字符 ) 

" 以 年 月 日 次 序列 出 更 新 ( 称 为 plurks) 

Plurk 社交 网 络 、 微 博 “ 通过 发 消息 响应 更 新 

" 朋友 间 的 组 会 话 

“ 带 有 文本 的 表情 符号 

“ 短 消息 (最 多 140 个 字符 ) 

Twitter 社交 网 络 、 微 博 ` 将 作者 网 页 上 的 消息 〈 称 为 在 Twitter 上 发 微 博 ) 发 送 给 订阅 者 〈 又 称 粉丝 ) 
”支持 SMS 消息 

















6. 9. 2 ” P2P 的 体系 结构 

构造 P2P 窗 羡 网 络 的 方式 可 以 分 为 三 类 : 集中 式 、 分 散 和 非 结构 式 、 分 散 但 结构 式 。 这 也 与 P2P 
应 用 的 演变 有 关 ， 集 中 式 P2P 是 第 一 代 ， 分 散 和 非 结构 式 P2P 是 第 二 代 ， 分 散 和 结构 式 P2P 是 第 三 代 
P2P 徐 羡 网 络 的 组 织 方式 ， 被 称 为 基础 设施 ， 影 响 其 搜索 操作 和 获 盖 维护 开销 。 

集中 式 1 

集中 式 方法 利用 一 个 中 央 目 录 服 务 器 来 定位 P2P 网 络 中 的 [一 
对象 ， 如 图 6-63 所 示 。 中 央 目 录 服务 器 是 一 个 稳定 的 、 始终 运 /7 Ee 
行 的 服务 器 ， 就 像 WWW 或 FTP 服务 器 一 样 。 对 等 可 以 通过 先 Mie 有 上 传 案 引 
将 自己 注册 到 目录 服务 器 来 加 入 到 P2P 网 络 中 。 对 等 也 会 告知 LA ~ 
口 洪 服 务 器 共享 的 对 象 ， 如 带 有 元 数据 的 音乐 文件 列表 。 为 了 | | 








搜索 对 象 ， 对 等 仅 需 要 向 中 央 目录 服务 器 发 送 查 询 信息 。 搜 索 。 > < < 
可 以 采取 关键 字 搜 索 形 式 也 可 以 采取 元 数据 搜索 ， 如 歌 名 或 歌 4 内 a 
于 名 字 。 因 为 所 有 的 共享 对 象 都 已 经 注册 到 服务 器 列表 中 ， 所 3 下 文人 


以 搜索 只 震 要 在 服务 器 上 进行 。 如 果 搜 索 成 功 ， 就 将 内 容 所 有 图 663 ”集中 式 P2P 
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者 列表 组 成 的 应 签发 送 回 给 搜索 者 。 查 询 者 接着 就 会 从 列表 中 选择 一 个 或 更 多 对 等 直接 下 载 对 象 。 

这 种 方法 被 Napster 采纳 ， 它 被 认为 是 最 近 P2P 开发 的 先驱 。Napster 由 shawn Fanning 创建 ， 这 是 
一 个 通过 集中 式 的 目录 服务 器 允许 用 户 共 享 和 交换 音乐 文件 的 程序 。 在 第 1 个 版 本 发 布 后 就 非常 受 欢 
迎 。 然 而 ， 它 在 1999 年 12 月 被 美国 录音 工业 协会 (RIAA) 以 版 权 侵 犯 为 由 起 诉 。2000 年 7 月 ,法庭 
命令 Napster 关闭 。 后 来 Napster 公司 在 2002 年 年 末 被 Bertelsman 收购 。 

集中 式 的 方法 非常 简单 ， 易 于 实现 ， 并 且 可 以 支持 各 种 搜索 ， 如 关键 字 、 全 文 检 索 、 元 数据 搜索 。 
具有 讽刺 意味 的 是 ， 它 不 是 一 个 真正 的 PP 系统 ， 因 为 它 依赖 于 中 央 目 录 服 务 融 。 如 果 没 有 这 个 服务 
器 ， 系 统 就 无 法 正常 工作 。 因 此 ， 它 具有 客户 端 / 服 务 器 模型 的 问题 ， 如 服务 器 会 成 为 性 能 瓶颈 ， 由 于 
单 点 故障 的 不 可 靠 性 、 不 可 扩展 性 和 易于 遭受 DoS 攻击 。 最 重要 的 是 ， 它 对 侵犯 版 权 负 有 责任 。 

分 散 和 非 结构 式 

为 了 摆脱 集中 式 目 录 服 务 融 方 法 ， 分 散 和 非 结 构 式 方法 通过 洪 泛 方法 给 同一 个 覆盖 网 络 内 的 对 等 发 
送 查 询 消息 来 搜索 共享 对 象 ， 如 图 6-64 所 示 ，。 为 了 减少 由 洪 泛 通信 引起 的 开销 ， 采 用 有 限 范围 的 洪 泛 方 
法 ， 查 询 消息 在 经 过 一 定 跳 数 后 不 被 转发 。 收 到 查询 消息 后 ， 如 果 一 个 相 邻 的 对 等 拥有 和 查询 相 匹 配 的 
资源 ， 那 么 当前 跳 将 以 查询 命中 消息 回应 前 一 个 发 送 者 ， 而 不 是 图 6-64 中 的 原始 查询 者 。 如 果 查 询 不 是 
重复 的 ， 并 且 没有 达到 其 范 于 限制 ， 那 么 就 将 查询 消息 转发 给 所 有 周边 的 对 等 ; 否则 丢弃 该 消息 。 查 询 
命中 消息 将 沿 着 反 向 路 径 返 回 到 请 求 者 。 接 着 请 求 者 就 可 以 直接 从 对 象 的 所 有 者 下 载 对 象 了 。 

为 了 加 入 到 P2P 网 络 ， 对 等 需要 某 种 带 外 机 制 至 少 知道 已 经 在 禾 盖 网 络 上 的 一 个 对 等 。 然 后 对 等 
向 已 经 在 禾 盖 网 络 上 的 对 等 发 送 加 入 消息 (或 ping 消息 ) 。 然 后 揽 盖 网 上 已 存在 的 对 等 把 自己 的 ID 以 
及 其 相 邻 对 等 的 清单 发 送 给 请 求 者 。 它 也 可 能 将 请 求 消息 转发 给 一 个 或 所 有 相 邻 的 对 等 。 一 旦 收 到 加 
入 应 答 消 息 ， 新 加 入 的 对 等 就 知道 该 秦 羔 网络 上 更 多 的 对 等 ， 并 开始 与 选 定 的 将 成 为 其 邻居 的 对 等 建 
六 TCP 连接。 

这 种 方法 的 优点 在 于 它 是 完全 分 散 的 ， 对 对 等 的 故障 具有 健壮 性 ， 并 且 也 很 难关 闭 。 然 而 ， 因 为 
潜 泛 方法 会 产生 过 度 的 查询 流量 ， 所 以 显然 它 不 具备 可 扩展 性 。 在 有 限 范 于 洪 泛 的 情况 下 ， 另 一 个 关 
键 问题 出 现 了 ， 即 它 可 能 偶尔 无 法 找到 实际 上 已 经 存在 于 系统 中 的 共享 对 象 。Cnutella 的 第 1 个 版 本 就 
是 这 样 的 例子 。 为 了 解决 可 扩展 性 问题 ，FastTrack ，Kazaa 网 络 的 专用 协议 ， 以 及 Gnutella 后 来 的 版 本 
采用 了 分 层 的 窗 凑 ， 如 图 6-65 所 示 。 
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图 6-64 在 分 散 和 非 结 构 式 P2P 系统 中 的 图 6-65 ”人 带 有 超级 对 等 的 层次 化 复 丫 
有 限 范围 内 的 查询 洪 泛 
层次 化 的 重 委 把 对 等 分 为 普通 对 等 和 超级 对 等 。 当 一 个 对 等 首先 加 入 图 盖 网 络 时 ， 它 充当 普通 对 
等 并 至 少 与 一 个 超级 对 等 连接 。 以 后 它 可 能 被 选 为 超级 对 等 ， 如 果 它 在 该 网 络 停留 很 长 一 段 时 间或 者 
有 具有 和 较 高 的 上 传 带 宽 。 超 级 对 等 作为 本 地 目录 数据 库 为 低级 对 等 存储 共享 对 象 的 索引 。 为 了 搜索 数据 
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对 象 ， 普 通 对 等 会 给 其 相 邻 的 超级 对 等 发 送 查 询 消 息 。 如 果 超 级 对 等 可 以 在 本 地 目录 中 发 现 共享 对 象 ， 
就 可 能 回复 普通 对 等 的 查询 请 求 ; 否则 ， 它 使 用 范围 有 限 的 洪 泛 将 查询 广播 到 邻近 的 超级 对 等 。 因 此 ， 
这 种 方法 建立 了 两 个 层次 的 分 层 获 六 网 络 ， 底 层 网 络 采用 中 央 目 录 服 务 融 的 方法 ， 而 上 层 网 络 采 用 分 
散 非 结构 式 的 方法 。. 

分 散 但 结构 式 

Napster 和 Gnutella 都 没有 将 他 们 的 对 等 组 织 成 一 种 结构 化 的 落 盖 网 络 。Napster 中 的 集中 式 目 录 是 
不 可 扩展 的 ， 而 在 Gnutella 中 传播 查询 的 方式 是 相当 随机 的 ， 因 此 也 不 是 很 有 效 。 因此， 一 种 更 好 的 
方法 是 将 分 布 式 目录 服务 和 一 个 有 效 的 查询 路 由 方案 相 结合 ， 从 而 导致 分 散 和 结构 式 P2P 系统 的 开发 ， 
如 Chord 、CAN 和 Pastry 

这 种 方法 的 主要 思想 是 : 对 于 分 布 式 的 目录 服务 ， 散 列 商 数 将 对 等 和 对 象 映射 到 相同 的 地 址 空间 
中 ， 因 此 对 象 就 可 以 以 分 布 式 方法 确定 分 配给 对 等 。 为 了 有 效 地 查询 路 由 ， 根 据 对 等 在 地 址 空间 中 的 
位 置 将 对 等 组 织 成 一 种 结构 化 的 覆盖 〈 网 络 ) 。 散 列 琴 数 将 一 组 对 等 和 对 象 均 匀 地 散 列 到 地 址 空间 中 ， 
称 为 一 致 性 散 列 。 散 列 函数 分 布 式 地 运行 在 每 个 对 等 中 ， 因 此 这 种 方法 也 称 为 分 布 式 散 列表 (DHT)。 
下 面 将 概述 DHT 系统 的 操作 并 使 用 Chord 作为 例子 。 

如 前 所 述 ， 将 所 有 的 对 等 和 对 象 散 列 到 相同 的 地 址 空间 中 。 为 了 避免 冲突 ， 地 址 空间 应 足够 大 ， 
如 128 位 。 对 等 可 能 使 用 其 IP 地 址 或 其 他 身份 作为 到 散 列 函数 的 输入 ， 并 将 获得 的 散 列 结果 作为 其 节 
点 上 四。 同样 ， 对 等 可 能 通过 将 对 象 的 文件 名 或 某 种 形式 的 URI 输入 到 散 列 函数 ， 从 而 获得 一 个 对 象 的 
对 象 ID。 由 于 节点 ID 和 对 象 ID 共享 相同 的 地 址 空间 ， 所 以 主要 思想 就 是 让 每 个 对 等 能 为 那些 对 象 ID 
与 其 节点 ID 相同 的 对 象 容纳 目录 服务 。 

基于 这 种 思想 ， 每 个 节点 通过 预定 义 的 散 列 函 数 首先 生成 其 节点 ID。 然 后 对 于 每 个 保留 的 并 且 将 
被 共享 的 对 象 ， 通 过 同一 个 或 男 一 个 散 列 函数 生成 对 象 DDD。 对 于 每 个 对 象 ， 对 等 将 注册 消息 发 送 给 节 
点 ID 和 对 象 ID 相同 的 节点 。 如 果 对 等 要 查询 对 象 ， 它 就 使 用 散 列 函数 生成 对 象 ID 并 将 查询 信息 发 送 
给 保留 该 对 象 ID 的 节点 。 我 们 假定 有 一 个 有 效 的 路 由 机 制 传递 查询 消息 。 如 果 地 址 空间 被 对 等 和 对 象 
占 满 了 ， 那 么 某 些 节点 的 节点 ID 就 会 与 对 象 ID 相同 。 但 是 我 们 期 望 对 等 和 对 象 稀 朴 地 占据 地 址 空间 ， 
不 存在 节点 ID 与 对 象 ID 相同 的 对 等 ， 为 了 解决 这 个 问题 . 将 对 象 ID 的 注册 信息 路 由 到 最 接近 对 象 ID 
的 节点 ID 的 对 等 ， 查 询 信 息 也 以 同样 的 方式 处 理 。 以 这 种 方式 ， 对 等 就 能 为 对 象 所 具有 的 ID 靠近 其 
节点 ID 的 对 象 提供 目录 服务 了 

问题 是 如 何 将 消息 路 由 到 距离 目的 ID (结构 化 履 盖 网 络 中 对 象 或 对 等 的 ID) 最 近 对 等 的 节点 ID 
上 。 关键 是 让 每 个 对 等 维护 一 个 专门 设计 的 路 由 表 ， 以 便 让 每 一 个 对 等 都 能 将 到 达 的 消息 转发 给 更 接 
近 目 的 地 的 具有 节点 D 的 邻居 对 等 上。 让 我 们 用 Chord 作为 例子 来 解释 如 何 设置 路 由 表 来 实现 有 效 的 
路 由 。Chord 把 它 的 地 址 空间 视 为 一 个 一 维 的 圆 形 空间 ， 所 以 空间 中 的 对 等 形成 一 个 环形 覆盖 。 

图 6-66 显示 了 一 个 包括 10 个 节点 的 Chord 畴 盖 在 一 个 6 位 地 址 空间 的 例子 。 在 Chord 中 的 路 由 表 
称 为 一 个 查询 表 。 对 于 一 个 灭 位 的 地 址 空间 ，ID =* 节点 的 查询 表 至 多 包含 m 项 并 且 第 i 个 表 项 指向 
紧 跟 在 D 为 x+2i 对 2" 取 模 的 第 一 个 节点 下 ,其 中 1 大; 过 四。 让 我 们 考虑 图 6-66 中 节点 N8 的 查询 
表 ， 其 中 m=6。 在 这 个 例子 中 ,节点 有 D 范围 从 NO ~ NW3， 但 只 有 10 个 节点 确实 在 环 上 存在 。 

每 个 节点 负责 为 大 于 前 一 个 节点 的 ID 但 是 小 于 或 者 等 于 它 自己 ID 的 对 象 提 供 目录 服务 。 例 如 ， 
节点 N15 将 保留 从 9 ~15 之 间 ID 的 对 象 信息 。 记 住 这 一 点 ， 接 下 来 我 们 分 析 N8 表 项 的 查询 表 。 第 一 
个 表 项 ,，i=1， 保留 指 向 容纳 N9 节点 的 下 一 跳 信息 。 这 个 表 项 指向 第 一 个 节点 ,其 ID 大 于 或 等 于 9， 
这 就 是 节点 N15。 也 就 是 说 ， 如 果 有 一 个 关于 对 象 ID 为 9 的 请 求 消息 ， 那 么 消息 就 传输 给 N15， 它 实 
水 上 为 这 个 对 象 提供 目录 服务 。 让 我 们 使 用 最 后 的 表 项 ，i =6， 作 为 男 外 一 个 例子 。 最 后 的 表 项 将 指 
向 为 ID 为 8+32 =40 的 对 象 提供 目录 服务 的 节点 。 表 项 指向 N42， 负 责 ID 在 31 ~42 之 间 的 对 象 。 

现在 ， 我 们 考虑 从 N8 将 消息 路 由 给 对 象 54 的 情况 ， 如 图 6-67 所 示 。 为 了 路 由 消息 ， 节 点 从 它 的 
查询 表 中 查找 最 后 一 个 表 项 ， 其 ID 号 小 于 对 象 ID。 因 此 ，N8 查找 最 后 一 个 表 项 (ID = 40 <54) ， 并 
将 消息 转发 给 WM2。 从 42 ~54 的 距离 是 12 <2”， 因 此 ，N42 查找 第 四 个 表 项 (ID =50 <54) 并 将 消息 
转发 给 W51。 最后， 从 51 ~ 54 的 距离 是 3 < 2 ， 因 此 N51 查找 第 二 个 表 项 (ID =53 <54) 并 将 消息 转 
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图 6-66 ”Chord 的 查询 表 
发 给 N56。 由 于 N56 负责 对 象 54 的 目录 服务 ， 所 以 一 旦 收 到 查询 ， 它 就 会 回复 查询 消息 。 一 个 有 趣 的 


问题 是 转发 消息 震 要 多 少 跳 ， 答案 是 ， 它 是 小 于 O (logn) 。 一 个 直观 的 理由 是 ， 每 个 路 由 跳 将 到 达 目 
的 ID 的 距离 减少 了 2 倍 。 例 如 ， 从 8 ~54 的 距离 是 46， 二 进 制 表示 为 101110。 因 此 , 在 N8 选择 2 的 

















表 项 ， 将 该 消息 转发 给 一 个 ID 大 于 或 等 于 40 (8 +32) 的 节点 ， 它 到 节点 54 的 距离 小 于 23 (46/2)。 
换 句 话说 ,利用 查询 表 ，Chord 在 每 个 路 由 的 步骤 就 能 够 将 搜索 空间 减少 2 倍 。 
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图 6-67 ”Chord 中 的 路 由 
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是 出 了 许多 基于 DHT 的 P2P hs 然 调 ， 它 们 是 建立 在 基于 结构 化 入 疼 的 分 布 式 

日 了 务 -和 高 效 路 由 的 相同 思想 上。 虽然 它们 是 分 散 的 和 高 效 的 , 但 DHT 的 主要 缺点 是 搜索 限制 为 精 
确 匹 配 ee 对 象 ID。， 名字 的 微小 差别 将 导致 散 列 结果 很 il 
异 。 因 此 ， 在 DHT 中 通过 关键 字 、 语 义 搜 索 、 全 文 搜索 进行 搜索 就 很 用 难 ，DHT 的 另 一 个 缺点 是 畴 善 
构建 和 维护 所 需要 的 额外 开销 

其 他 原因 

因为 不 同 的 基础 设施 都 有 自己 的 优点 和 缺点 ， 所 以 在 文献 中 已 经 提出 了 多 种 混合 模式 和 层次 化 的 
基础 设施 


6. 9. 3 ”P2P 应 用 的 性 能 问题 

P2P 应 用 有 一 些 性 能 问题 也 引起 了 人 研究 人 员 的 高 度 重视 。 下面 讨论 一 些 主要 问题 

搭便 车 问题 

P2P 系统 的 可 扩展 性 依赖 于 来 自 对 等 的 贡献 。 如 果 对 等 节点 只 消耗 但 页 献 很 少 或 根本 没有 共享 资 
源 ， 那 么 它 就 变 成 了 系统 的 搭便 车 者 .如 果 在 系统 中 有 许多 搭便 车 者 ,那么 该 系统 将 退化 为 客户 端 / 服 
务 融 模 埋 ， 其 中 大 部 分 的 搭便 车 者 充当 客户 端 ， 而 只 有 少数 的 非 搭 便 车 者 充当 提供 绝 大 部 分 资源 的 服 
务 克 。 如 果 P2P 系 0 情况 ， 就 会 出 现 严重 的 问题 。2005 年 Hughes 、Coulson 
和 Walkerdine 的 研究 结果 表明 ， 没 有 任何 反 制 搭便 车 机 制 时 ，85% 的 对 等 在 Cnutella 中 不 共享 文件 
对 搭便 车 的 问题 的 一 个 共同 的 解决 方案 是 要 实施 一 些 激 励 机 制 。 例如， 我 们 接 于 全 二 BitTorrent 中 
的 针锋相对 机 制 ， 对 于 贡献 更 蜗 上载 速度 的 对 等 将 给 予 更 高 的 于 传 优先 级 。， 其 他 解决 方案 ， 文 献 中 推 
荐 了 基于 奖励 的 和 基于 信用 的 机 制 等 ， 

瞬间 拥挤 

肯 间 拥挤 现象 是 指 对 某 一 特定 对 象 需求 的 突然 的 、 意 外 的 增长 ， 例 如 ， 新 发 布 的 DVD 视频 或 MP3 
文件 。 与 这 一 现象 有 题 包 括 如 何 应 对 突然 大 量 出 现 的 查询 消息 以 及 震 要 多 长 时 间 找 到 并 在 很 短 
时 间 内 下 载 的 对 象 。 虽然 不 同类 型 的 P2P 基础 设施 需要 不 同 的 解决 方案 ， 但 一 般 情 况 下 ， 在 已 经 转发 
应 答 消 息 的 对 等 上 缓存 对 象 的 索引 可 以 减少 查询 的 流量 和 息 的 延迟 。 男 一 方面 ， 将 对 象 尽 可 能 


多 地 复制 到 对 等 可 以 提高 下 载 速度 。 例 如 ， 当 一 个 对 等 节点 已 完全 下 载 文件 后 ， 它 将 成 为 一 颗 种 子 ， 
即 一 个 资源 提供 者 
拓扑 感知 


基于 DHT 的 P2P 系 统 可 以 保证 路 由 路 径 长 度 上 的 王 限 。 然 而 ， 路 径 上 上 的 一 条 链 路 对 应 于 底层 物理 
网 络 中 的 一 条 传输 层 连 接 ， 如 图 6-62 所 示 。 这 种 虚拟 链 路 既 可 以 是 跨 洲 的 一 条 长 的 端 色 端 的 连接 ， 也 
可 以 是 一 条 短 的 局 域 网 络 的 连接 。 换 名 话说， 如 果 对 等 选择 它们 的 复 盖 邻居 而 不 考虑 底层 的 物理 拓扑 
结构 ,那么 最 终 产 生 的 P2P 餐 盖 网 络 可 能 产生 与 底层 物理 网 络 拓扑 结构 严重 不 匹配 问题 。 因 此 ， 如 何 
a ba a 大 大 影响 P2P 系统 的 性 能 ， 人 们 已 经 为 P2P 黎 盖 系统 提 提出 了 许 
多 种 路 由 接近 、 邻 居 接 近 的 改进 ， 它 们 是 基于 RTT 的 测量 、 路 由 域 或 ISP 的 偏好 或 地 理 信息 。 

NAT 跨越 


如 来 目的 对 等 有 一 个 公共 IP 地 址 时 ， 一 个 对 等 就 可 以 直接 建立 一 条 到 另 一 对 等 的 传输 层 连接 。 然 
而 ， 许 多 宽带 接 和 人 用户 是 通过 NAT 设备 连接 到 互 联网 。 ee 等 都 在 NAT 设备 之 后 ， 没 有 其 他 对 
于 或 STUN 服务 带 的 帮助 它们 就 不 可 能 相互 连接 ， 如 第 4 章 中 讨论 的 那样 。 因 此 ， 对 P2P 系统 的 基本 


宕 求 就 是 为 对 等 提供 NAT 跨越 机 制 . 在 大 多 数 情况 下 ，NAT 跨越 是 通过 具有 公共 IP 地 址 的 中 继 对 等 
或 超级 对 等 来 解决 的 . 

搅动 

搅动 是 指 对 等 随意 地 动态 加 入 或 离开 系统 。 直观 地 说 ， 高 搅动 率 严 重 影响 了 P2P 系统 的 稳定 性 和 
可 扩展 性 ， 例如， 高 搅动 率 可 能 会 造成 基于 DHT 系统 的 三 大 窗 盖 维护 开销 和 路 由 性 能 (包括 路 由 正确 
性 ) 的 急剧 恶化 。 为 了 对 付 搅 动 现象 ，P2P 系统 应 避免 对 等 之 间 的 刚性 结构 或 关系 ， 如 P2P 视频 流 中 
的 树 形 结 构 ， 并 且 对 等 应 该 维护 一 张 潜在 邻居 的 列表 ， 在 需要 时 用 于 快速 动态 邻居 的 更 换 ， 
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安全 

在 P2P 系统 中 存在 多 个 安全 问题 。P2P 程序 带 有 后 门 (特洛伊 木马 ) 、 虚 假 的 内 容 ， 或 不 应 该 共 至 
文件 的 泄露 。 在 P2P 系统 中 虚假 内 容 或 内 容 污 染 问题 会 降低 内 容 的 可 用 性 并 增加 宛 余 流量 。 例 如 ， 恶 
意 用 户 可 能 共享 一 首 流行 的 MP3 文件 ， 但 修改 〈 污 染 ) 了 部 分 内 容 。 下载 这 个 被 污染 文件 的 用 户 通常 
会 尝试 下 从 其 他 来 源 下 载 该 文件 。 如 果 污 染 的 内 容 ( 对象 ) 遍布 PP 系统， 那么 用 户 就 可 能 失去 加 入 
到 这 个 P2P 系统 中 的 兴趣 ， 央 为 大 多 数 下 载 的 对 象 是 无 用 的 。 内容 污 染 问题 的 解决 方案 包括 : 利用 消 
息 摘要 (如 MD5)、 对 等 信誉 系统 和 对 象 信誉 系统 。 例 如 ， 在 BitTorrent 中 ， 将 共享 文件 的 每 一 段 MD5 
摘要 存储 在 元 数据 文件 中 ， 例 如 . torrent 文件 。 在 FastTrack 中 ，UUHash 机 制 使 用 MD5 散 列 选择 的 文 
件 块 防止 文件 污染 

版 权 侵 犯 

最 后 ， 应 当 指出 的 是 通过 P2P 系统 共享 受到 版 权 保护 的 对 象 会 成 为 一 个 严重 的 问题 ， 它 阻碍 了 
P2P 系统 的 推广 和 使 用 。 许 多 大 学 和 组 织 禁 止 他 们 的 用 户 运行 P2P 应 用 程序 。 此 外 ,不仅 是 P2P 用 户 
应 该 为 版 权 侵犯 负责 任 ， 容 纳 P2P 应 用 的 公司 ， 尤 其 是 没有 自己 的 服务 器 就 不 可 能 让 P2P 系统 存在 的 
公司 也 要 负 有 责任 ， 就 像 Napster 的 情况 一 样 


6. 9.4 案例 研究 :” BitTorrent 


BitTorrent (BT) 最初 由 Bram Cohen 在 2001 年 设计 ， 目前 它 已 经 成 为 一 个 非常 流行 的 文件 共享 
软件 。2004 年 ， 它 贡献 大约 30% 的 互联 网 流量 。 虽 然 目 前 有 多 个 竞争 对 手 ， 如 eDonkey 和 eMule， 
但 它 仍然 是 一 个 非常 流行 的 文件 共享 软件 。BT 是 一 个 经 过 深思 熟 虑 的 、 具 有 多 个 独特 功能 的 协议 : 
1) 利用 针锋相对 作为 一 种 激励 机 制 ， 处 理 搭便 车 问题 ; 2) 使 用 带 外 搜索 避免 版 权 侵犯 问题 ; 3) 使 
用 基于 拉 的 蜂 群 技术 实现 负载 平衡 ; 4) 使 用 散 列 检查 ， 以 防止 虚假 片 的 传播 ; 5) 一 个 对 等 成 功 下 载 
一 个 文件 后 ， 它 就 变 成 了 发 布 文件 的 种 子 

在 描述 协议 之 前 ,我们 首先 介绍 在 BT 中 使 用 的 术语 。 一 个 将 共享 的 文件 切 成 固定 大 小 的 片 。 每 一 
片 进一步 划分 成 块 ， 它 对 等 请 求 内 容 的 基本 数据 单位 。 每 一 片 的 完整 性 受到 SHA-1 散 列 代码 的 保护 ， 
因此 受 污染 的 片 不 会 传播 。 如 有 果 对 等 已 经 成 功 地 下 载 了 文件 ,那么 它 就 变 成 了 种 子 。 对 于 将 被 共享 的 
每 一 个 文件 或 一 组 文件 ， 都 有 一 个 跟踪 器 (acker) 。 跟 踪 器 跟踪 下 载 的 对 等 和 种 子 ， 并 协调 对 等 之 间 
的 文件 分 发 。 虽 然 和 月 2005 年 以 来 在 BT 系统 中 每 个 对 等 都 有 可 能 充当 跟踪 器 ， 但 更 常用 集中 式 跟 踪 器 。 
因此 ， 我 们 将 学 习 沉 有 集中 式 跟踪 带 的 BT 协议 


操作 概述 
图 6-68 是 有 关 BT 操作 的 简要 概述 。 为 了 共享 文件 ， 一 个 对 等 首先 创建 一 个 “. torrent” 文 件 , 它 


Web 服 务 器 


一 是 | 员 有 到 torrent 链接 的 web 网 页 






下 载 对 等 


下 载 对 等 
图 6-68 BT 的 操作 步 又 
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包括 将 被 共享 文件 的 元 数据 、 文 件 名 、 文 件 长度 、 正 在 使 用 的 片 长 、 每 一 片 的 SHA-1 散 列 代码 、 每 一 
片 的 状态 信息 和 跟踪 器 的 URL。 通常 将 torrent 文件 发 布 到 一 些 知 名 网 站 上 。 为 了 查找 并 下 载 某 个 文件 ， 
用 户 首先 浏览 Web 网 页 以 便 首先 找到 该 文件 的 torrent。 然 后 用 BT 客户 端 程序 打开 torrent 文件 。 客 户 端 
连接 到 跟踪 锅 ， 并 得 到 当前 正在 下 载 文件 的 对 等 清单 。 在 此 之 后 ， 客 户 端 便 连 接 到 这 些 对 等 ， 按 片 选 
择 算 法 获得 文件 的 各 个 片 。 

片 的 选择 

对 于 前 几 片 〈 通 常 约 为 4) ， 客 户 端 只 是 随机 选择 一 片 下 载 ， 称 为 随机 第 一 片 选择 。 经 过 初始 阶段 
后 ， 采 用 最 稀缺 优先 策略 。 最 稀缺 优先 策略 选择 最 稀缺 的 一 片 下载 ， 因 为 最 稀缺 的 片 稍 后 可 能 会 因为 
某 些 对 等 的 离间 而 不 再 提供 ， 它 还 确保 能 从 种 子 下载 各 种 片 。 最 后 ， 为 了 加 快 最 后 文件 下 载 的 完成 ， 
仅 有 少数 片 缺 失 的 对 等 将 进入 一 种 残局 (end-game) 模式 ， 并 向 所 有 对 等 发 送 请 求 以 便 得 到 缺失 的 片 

对 等 选择 

对 等 可 能 会 收 到 来 自 其 他 对 等 的 对 片 的 请 求 。BT 采用 一 种 内 置 激 励 算法 ， 称 为 针锋相对 (tit-for- 
tat) 算法 ， 选 择 对 等 来 上传 它 们 感 兴趣 的 片 。 针 锋 相 对 是 博弈 论 中 因 徒 困境 最 普遍 采用 的 策略 。 其 基 
本 思路 是 ， 如 果 对 手 合作 ; 那么 代理 就 合作 ; 否则 ， 如 果 对 手 挑 蛇 ， 代 理 将 采取 报复 行动 ， 对 等 选择 
算法 由 三 部 件 组 成 : 阻塞 /下 通 ( 非 阻 寒 )、 乐 观 下 通 ( 非 阻塞 ) 、 防 冷落 。 

针锋相对 是 阻塞 /下 通 算法 所 采用 的 。 阻 塞 是 指 暂时 拒绝 上 传 给 对 等 。 在 开始 的 时 候 ， 所 有 的 对 等 
都 阻塞 ， 然 后 对 等 蚊 通 某 一 固定 数字 (通常 为 4) 的 对 等 ， 其 中 一 些 (通常 为 3) 是 基于 针锋相对 的 ， 
而 男 一 些 (通常 为 1) 是 基于 乐观 踊 通 的 。 在 那些 对 对 等 片 感 兴趣 的 对 等 中 ， 针 锋 相 对 算法 会 从 对 等 
下 载 最 多 的 对 等 中 选择 一 个 固定 个 数 (通常 为 3) 的 对 等 。 具 体 来 说 ， 选 择 完全 基于 对 每 片 的 下 载 速 
度 。 针 锋 相对 算法 每 隅 10 秒 就 停 用 ， 并 且 下 载 速度 基于 20 秒 的 移动 窗口 速率 计算 ,但 是 ， 当 新 的 对 
等 节点 最 初 加 入 该 系统 时 ， 它 需要 迈 开 它 的 第 一 步 ， 也 需要 移动 第 一 步 去 探索 目前 还 没有 合作 过 的 对 
等 ， 因 此， 乐观 蚊 通 思想 就 是 从 对 对 等 的 片 感 兴趣 的 对 等 中 随机 选择 一 个 ， 而 不 管 其 下 载 速 率 。 乐 观 
跑 通 每 30 秒 进 行 一 次 以 便 选 择 按 环形 排序 的 对 等 。 最 后 ， 当 一 个 对 等 被 其 所 有 的 对 等 阻塞 (受到 冷 
落 ， 例 如 ， 在 60 秒 内 时 它 没有 收 到 任何 数据 ) 时 ， 就 运行 防 冷落 算法 。 一 个 受到 冷落 的 对 等 的 确 更 经 
常 运行 乐观 跑 通 来 探索 更 多 愿意 合作 的 对 等 。 因 此 ， 防 冷落 算法 停止 上 传 由 针锋相对 选择 的 对 等 ， 以 
便 让 乐观 踊 通 可 以 更 经 常 地 运行 。 





开源 实现 6.8: BitTorrent 

概述 

有 多 个 用 于 文件 共享 网 络 的 免费 客户 端 软件 程序 ， 如 Gnutella 的 LimeWire、 eDonkey 的 eMule、Bit- 
Torrent 的 uTorrent 和 Azureus。 它 们 以 不 同 的 设计 理念 和 基础 设施 分 别 解决 不 同 的 P2P 系统 的 性 能 问 
题 。 例 如 ，Gnutella 采用 分 散 和 非 结构 化 拓扑 ， 后 来 又 采用 超级 对 等 的 层次 化 结构 。eMule (电驴 ) 和 
BT 采用 DHT 技术 ， 以 避免 集中 式 跟踪 器 (服务 器 ) 。 因 此 ，Gnutella 以 其 分 散 化 、 无 服务 器 拓扑 而 著 
名 ， 对 随机 节点 故障 具有 是 极 大 的 弹性 。 电 驴 以 其 分 布 式 跟踪 器 而 著名 ， 是 一 个 基于 DHT 解决 方案 的 
Kademlia 协议 。BT 以 其 将 大 文件 分 成 片 而 著名 ， 采 取 针 锋 相 对 算法 以 应 付 搭便 车 问题 ， 利 用 文件 的 完 
整 性 检查 以 防止 传播 污染 的 片 。 由 于 BT 有 这 么 多 独特 的 功能 ， 所 以 它 仍然 是 最 流行 的 P2P 文件 共享 
软件 程序 之 一 。 前 面 讲 过 ， 为 处 理性 能 问题 ，BT 采取 如 下 的 解决 方案 : 

1) 采用 针锋相对 算法 以 避免 搭便 车 BT 根据 两 个 对 等 之 间 的 下 载 速度 来 实现 针锋相对 算法 。 使 
用 下 载 速率 作为 回报 标准 的 优点 在 于 ， 它 可 以 很 容易 地 利用 每 个 对 等 上 的 本 地 信息 实现 。 替 代 的 解决 
方案 ， 如 基于 信誉 的 方法 和 到 所 有 对 等 的 下 载 速度 ， 都 需要 来 自 其 他 对 等 的 信息 ， 而 这 些 信息 是 否 正 
确 仍然 还 是 一 个 问题 。 另 一 方面 ，BT 的 方法 对 于 新 的 到 来 者 是 不 公平 的 

2) 带 外 搜索 避免 版 权 侵犯 BT 假定 对 等 能 够 首先 找到 . torrent 文件 而 不 用 指定 如 何 找到 。 这 种 方 
法 是 一 个 简单 而 有 效 的 方式 ， 以 推 孝 版 权 侵 权 责 任 缺点 是 依赖 第 三 方 服务 器 发 布 .torrent 文件 

3) 用 于 负载 平衡 的 基于 拉 的 蜂 群 ”基于 针锋相对 算法 ， 为 了 下 载 它们 需要 的 片 对 等 将 片上 传 到 其 
他 对 等 。 这 种 方法 非常 有 效 地 强制 对 等 贡献 出 它们 已 经 下 载 的 片 ， 因 此 ， 随 着 更 多 的 对 等 加 入 到 该 系 
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统 中 ， 对 等 可 以 加 快 下 载 过 程 。 这 种 方法 的 一 个 潜在 的 问题 是 ， 对 等 一 旦 完成 下 载 就 会 离开 系统 ， 这 
就 是 所 谓 的 水 是 问题 ， 显 然 ， 种 子 待 在 网 上 的 时 间 越 长 ， 集 群 性 能 就 越 好 ， 

4) 消息 摘要 保护 每 个 片 的 完整 性 BT 采用 SHA-1 保护 每 个 片 的 完整 性 ,虽然 这 种 方法 可 以 有 效 
防止 污染 片 的 传播 ， 但 它 需 要 对 每 一 检索 片 进行 SHA-1 计算 .在 FastTrack (Kazaa) 中 ,消息 摘要 只 
用 于 一 个 文件 的 部 分 块 。 这 样 做 会 节省 一 些 计 算 开 销 ， 但 它 也 将 让 攻击 者 污染 一 个 文件 而 不 会 被 抓 到 

由 于 BitTorrent 的 协议 规范 是 免费 使 用 的 ， 所 以 许多 BT 客户 端 程序 是 开源 的 。 其 中 ，uTorrent、 
Vuze 和 BitComet 是 最 流行 的 客户 端 程序 ”在 本 节 中 ， 我们 将 跟踪 Vuze4. 2.0.2， 这 是 用 Java 语言 实 
现 的 

文件 和 数据 结构 

大 多 数 Vuze 的 核心 软件 包 都 位 于 .\com\aelitis\azureus\core 目录 下 在 该 目录 下 可 以 找到 的 软件 
包 ， 如 表 6-31 所 示 


表 6-31 在 com. aelitis. azureus. core 中 的 软件 包 









































软 件 包 软 件 包 软 件 包 
软件 包 clientmessageservice 软件 包 impl 软件 包 proxy 
软件 包 cnelwork 软件 包 instancemanager 软件 包 securily 
软件 包 ninl 软件 包 1ws 软件 包 speedmanager 
软件 包 crypto 软件 包 messenger 软件 包 stals 
软件 包 custonm 软件 包 metasearch 软件 包 subs 
软件 包 devices 软件 包 monitoring 软件 包 torrent 
软件 包 | dh 软件 包 | ma 软件 包 | update 
软件 包 A 软件 包 | networkmanager 软件 包 ulil 
软件 包 download 软件 包 neuronal 软件 包 versioncheck 
软件 包 drm 软件 包 peer 软件 包 vuzefile 
软件 包 helpers 软件 包 peermanager 


























对 等 选择 和 片 选择 的 大 多 数 代 码 都 位 于 .\com\aelitis\azureus\core\peermanager 目录 下 。 在 该 目录 
下 ， 对 等 选择 和 片 选择 算法 可 以 分 别 在 \piecepicker 和 \unchoker 目录 下 找到 ， 已 连接 对 等 的 状态 信息 代 
码 可 以 在 \peerdb 目录 中 找到 。 

另 一 个 重要 的 目录 是 \org\gudy \azureus2 \core3 目录 。 控 制 片 和 对 等 选择 的 主 程序 是 PEPeerCon- 
trolImpl. java， 它 位 于 该 目录 的 \peer\impl\control 下 。 对 等 和 片 对 象 类 为 PEPeer 和 PEPiece， 定 
义 在 \org\gudy\azureus2\core3\peer 下 . 

图 6-69 显示 了 PEPeer、PEPiece 和 PEPeerManager 的 类 层次 化 结构 

算法 实现 

主 程序 

控制 片 和 对 等 选择 的 主 程序 是 PEPeerControlImpl 类 ， 它 从 两 个 类 PEPeerManager 和 PEP- 
eerControl 中 继承 而 来 ，PEPeerControlImpl 的 详细 继承 图 显示 在 图 6-70 中 .该 类 的 构造 器 创建 
对 象 biecePicker。 函 数 也 定义 在 该 类 中 。schedule () 调用 checkRequests () 和 piecePicker 
如 果 对 等 不 处 于 种 子 模式 ， 那 么 allocateRequests () 调用 片 请 求 。 然 后 它 调用 doUnchokes () 来 处 
理 对 等 阻塞 和 疏通 ,在 doUnchokes () 中 ,调用 unchoker. calculateUnchokes () 确定 哪个 对 等 疏 
通 (unchoke)。 

对 等 选择 的 实现 

下 载 对 等 和 种 子 对 等 的 疏通 算法 在 .\comn\aelitis\azureus \core \peermanager\unchoker 目录 下 的 Down- 
loadingUnchocker java 和 SeedingUnchocker. java 中 实现 。 让 我 们 追踪 针锋相对 和 乐观 疏通 算法 的 代码 实 
现 ， 针 锋 相 对 的 主 函数 是 在 calculateUnchokes () 中 实现 。 有 4 个 对 等 列表 用 在 该 函数 中 : chokes、 
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图 6-69 PEPeer、PEPiece 和 PEPeerManager 的 类 层次 化 结构 


一 一 一 一 一 一 +| org.gudy.azureus2.core3.logging.LogRelation 
一 | org.gudy.azureus2.core3.peerimpl.PEPeerControl 

一 -一 一 一 一 -| org.gudy.azureus2.core3.config.ParameterListener 

六 一 一 一 一 一 | Org.gudy.azureus2.core3.disk.Disk ManagerWriteRequestListener 


图 6-70 ”PEPeerControlImpl 的 详细 继承 图 


unchokes、optimistic unchokes 和 best peer。 它 们 用 来 管理 阻塞 的 、 玖 通 的 、 乐 观 芍 通 的 对 
等 ， 以 及 根据 下 载 速率 将 被 朴 通 的 最 佳 对 等 ，calculateUnchokes () 的 伪 代 码 如 下 : 
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calculateUnchokes 1() 
BEGIN 
get all the currently unchoked peers; 
IF the peer is not previously choked by me { 
IF the peer is unchokable { 
add it to the unchokes list; 
IF the peer is previously optimistic unchoked 
add it to the opt imistic unchokes list; 


} 
ELSE 
add the peer to the chokes list; 


} 


IF not forced to refresh the optimistic unchoke peers 
Move the peers in the optimistic unchokes list to the 
best peers listuntil the number of peers exceeds max optimistic; 
Add peers to the best peers listif its download rate is higher than 256; 
Call UnchokerUtil.updateLargestValueFirstSort to sort 
the best peers listaccording to the download rate; 
IF we still have not enough peers in the pest peers list 
(less than max to unchoke){ 
fill the remaining Slots with peers that we have downloaded 
from in the past (uploaded ratio<3); 


} 
IF we still have remaining slots 
Call UnchokerUtil .getNextOptimisticPeer to get more optimistic 
unchoke peers. (factor reciprocated is set to true); 
Call chokes .add () to update chokes 
Call unchokes .add () to update unchokes 
END 


在 这 个 函数 中 ， 对 等 根据 当前 的 状态 首先 放 入 到 chokes、unchokes 或 optimistic unchokes 
列表 中 。 当 前 最 优 疏 通 对 等 将 一 直 是 足 通 的 ， 直 到 优化 足 通 的 数量 超过 了 max optimistic 阅 值 为 止 。 然 
后 ， 对 片 感 兴趣 的 对 等 ( peer. isInteresting () ) 和 豌 通 的 对 等 (Unchoker Util. isUnchokable)， 
调用 方法 Peer. getStats (). getSmoothDataReceiveRate () 以 便 获 得 它们 的 下 载 速 率 。 这 些 对 等 
通过 调用 UnchokerUtil. updateLargestValueFirstSort () 按照 速率 排序 到 best _ peers 列表 中 
如 果 在 best peers 列表 中 的 对 等 数量 小 于 将 被 疏通 的 最 大 对 等 数 max to unchoke， 那 么 将 up- 
loaded ratio 小 于 3 的 对 等 添加 到 best peers 列表 中 ,这 里 uploaded ratio 是 发 送 的 总 字 节 数 
与 接收 的 总 的 字 节 数 (加 上 BLOCK SIZE -1) 之 比 。 如 果 best peers 的 大 小 仍然 小 于 max to 
unchoke， 那 么 就 调用 UnchokerUtil. getNextOptimisticPeer() 以 便 找 到 更 多 用 于 乐观 疏通 的 
对 等 。 当 选择 乐观 对 等 时 ，UnchokerUtil. getNextOptimisticPeer () 闻 数 或 者 考虑 对 等 回报 率 ， 
或 者 只 随机 地 从 optimistic unchokes 列表 中 选择 对 等 ， 有 具体 根据 factor reciprocated 是 否 为 
真 来 决定 。 报答 得 分 定义 为 总 的 发 送 字 节 数 与 总 的 接收 数据 字 节 数 之 差 ， 优选 低 的 分 数 。 

片 选 择 的 实现 

getRedauestCandidate () 方法 定义 在 .\com \aelitis \azureus \core \peermanager\piecepicker\impl 目 
录 下 的 PiecePickerImpl. java 中 ， 有 是 决定 下 载 哪个 片 的 核心 方法 ， 需 要 首先 知道 两 个 参数 : 优先 权 和 效 
益 。 优先 权 是 检查 片 的 聚合 优先 级 ， 效 益 是 检查 片 的 峰 群 范围 内 的 可 用 性 等 级 ， 在 这 个 方法 中 有 三 个 
阶段 。 第 一 ， 如 果 有 一 个 FORCED _PIECE 或 一 个 预 留 的 片 ， 如 果 可 能 ， 它 将 被 启动 /恢复 。 第 二 ， 通 
过 扫描 所 有 活动 的 片 找 到 最 稀有 的 具有 最 高 优先 权 的 已 经 被 装载 的 并 且 可 能 继续 下 去 的 片 。 片 的 可 用 
性 由 availability[i] 表示 。 第 三 ， 如 果 没 有 要 恢复 的 片 ， 那 么 就 找到 一 个 具有 最 高 优先 级 的 最 稀 
有 片 列表 作为 候选 者 开始 下 载 一 个 新 的 片 。 如 果 所 做 的 请 求 被 发 现 ， 那 么 方法 返回 int[] pieceNum- 
ber 和 blockNumber. 

练习 

1. 通过 考虑 往返 延迟 并 且 相 应 地 更 改 getNextOptimisticPeer 1() 函 数 中 的 随机 选择 代码 研究 局 





354 | | 笋 6 辣 





部 性 ， 例 如， 你 可 能 会 优先 考虑 往返 延迟 较 低 的 对 等 
2. 讨论 为 什么 在 选择 乐观 朴 通 对 等 中 考虑 局 部 性 很 重要 ， 需 要 注意 的 是 ， 乐 观 足 通 在 发 现 潜 在 的 
针锋相对 对 等 时 扮演 着 赋 初 值 的 角色 


6. 10 ”总 结 

与 本 书 的 其 他 章 不 同 ， 本 章 更 难 但 是 仍然 是 获得 互联 网 应 用 一 般 知 识 所 必要 的 。 本 童 先 从 所 有 互 
联网 应 用 设计 的 一 般 性 问题 开始 。 我 们 学 习 了 众所周知 端口 的 工作 方式 ， 服 务 兢 如 何 作 为 后 人 守护 进 
程 运行 ， 并 发 和 面向 连接 组 合 服 务 和 和 迭代 无 连接 服务 之 间 的 区 别 ， 以 及 为 什么 应 用 层 协 议 有 可 变 长 的 
ASCII 消息 和 有 状态 /无 状态 。 人 然后 我 们 介绍 了 主要 的 应 用 层 协议 ， 从 基本 的 DNS， 到 经 典 的 SMTP、 
POP3 、IMAP4 、HTTP 、FTP 和 SNMP， 骨 到 实时 的 SIP、RTP、RTCP、RTSP 和 各 种 P2P 协议 。 对 每 个 应 用 
协议 ， 我 们 描述 了 设计 和 概念、 协议 消息 和 行为 ， 震 要 时 还 给 出 了 例子 会 话 和 一 个 流行 的 开源 软件 包 
这 里 我 们 不 打算 总 结 每 个 应 用 的 设计 概念 。 相 反 ， 我 们 重新 审查 它们 通用 的 特点 : 众所周知 端口 、 变 
长 ASCU 人 码 、 无 状态 的 和 并 发 性 。 通 过 这 些 ， 我 们 就 可 以 更 好 地 体会 这 些 特征 并 很 可 能 超越 现 有 练习 。 

第 一 ， 根据 端 口号 对 应 用 进行 分 类 已 经 不 合适 了 。 许 多 应 用 的 运行 通过 端口 80 或 者 将 它们 的 信息 
封装 在 HTTP 信息 中 以 使 允许 Web 流量 通过 防火 增 ; 此 外 ，P2P 应 用 经 常 动态 地 选择 不 是 众所周知 端 
器 的 端口 号 。 因 此 ， 为 了 精确 的 分 类 就 需要 深度 分 组 检测 (deep packet inspection，DPI) 应 用 的 头 部 或 
者 有 效 载 倍 。 第 :， 与 更 低层 的 二 进 制 固定 长 上 度 协 议 头 部 不 同 ， 应 用 层 协议 具有 可 变 长 的 ASCI 格式 
这 里 不 能 使 用 用 于 单字 段 (目的 地 下 地 址 ) 分 组 转发 和 多 字段 (5 元 组 ) 分 类 的 表 查 询 。 相反 ， 需 要 
汕 有 正则 表达 式 解 析 或 基于 特征 的 字符 串 匹配 的 DPI 用 于 分 类 或 安全 目的 。 这 种 固定 到 可 变 之 间 的 差 
距 在 数据 库 系 统领 域 中 有 着 类 似 的 例子 ,传统 的 关系 数据 库 系统 具有 固定 长 度 的 表 ， 市 与 此 相对 以 
XML 格式 的 结构 化 的 数据 或 由 搜索 引擎 引 的 非 结构 化 数据 就 是 可 变 长 度 字 符 串 。 就 像 半 结构 化 或 无 结 
构 的 数据 库 中 所 占 的 百分比 不 断 增 长 一 样 ， 可 变 长 度 协 以 消息 的 处 理 在 网 络 世 界 中 也 获得 更 多 的 关注 

第 三 和 第 四 ， 有 状态 是 苏 议 的 设计 选择 ， 而 并 发 是 协议 服务 器 的 一 种 实现 决策 。 除 了 HTTP 和 
SNMP 为 了 效率 和 扩展 性 外 ， 为 了 跟踪 客户 端的 连接 大 多 数 应 用 协议 选择 有 状态 的 设计 。DNS 介 于 两 
者 之 问 。 本 地 DNS 服务 器 大 多 数 是 有 状态 的 和 递归 的 对 DNS 的 查询 完全 负责 ， 由 于 效率 和 可 扩展 性 所 
有 其 他 的 DNS 服务 带 是 无 状态 的 、 迭 代 的 。 尽 管 本 质 上 是 无 状态 的 ， 但 HTTP 服务 天 可 以 通过 cookies 
机 制 将 长 的 通话 变 成 有 状态 的 。 对 于 并 发 ,决定 取决 于 服务 会 话 或 请 求 所 需要 的 时 间 。 如 果 服 务 时 间 
很 短 ， 服 务 右 就 可 以 保持 迭代 。SNMP 就 属于 这 种 ， 因 此 在 net-snmp 中 的 服务 右 就 是 以 迭代 服务 带 实 
现 的 。 本 童 中 的 所 有 其 他 开源 软件 包 有 具有 并 发 服务 器 的 实现 ， 由 于 它们 较 长 的 服务 时 间 。 

从 第 2 章 到 第 6 蔓 ， 我 们 学 习 所 有 协议 层 。 有 两 个 高 级 问题 需要 特殊 处 理 : 服务 质量 ( QoS) 和 网 
络 安全 。 一 旦 我 们 实现 了 连通 性 ， 就 希望 连接 足够 快 、 足 够 安全 。 服 务 质 量 或 性 能 问题 一 直 是 所 有 网 
络 系统 或 组 件 设 计 的 中 心 问题 。 在 第 7 章 中 ， 利 用 两 个 完全 的 解决 方案 ( IntServ 和 DiffServ ) ， 以 及 6 
个 重要 的 构建 模块 形式 化 地 处 理 服务 质量 。 尽 管 这 两 种 解决 方法 都 没有 成 功 ， 但 某 些 构建 模块 技术 已 
在 我 们 日 常 互 联网 生活 中 普及 起 来 。 在 第 8 章 中 ,我 们 将 安全 问题 分 为 访问 安全 、 数 据 安全 和 系统 安 
全 ， 分 别 解 决 谁 可 以 访问 什么 、 在 公共 互联 网 上 的 专用 数据 和 对 人 侵 者 来 讲 的 系统 漏洞 。 对 这 些 问 题 
的 最 新 解决 方案 进行 了 介绍 。 


常见 陷阱 

















服务 器 的 并 发 蔡 代 方案 

编写 一 个 并 发 的 、 面 向 连接 服务 器 的 最 简单 方法 就 是 按 需 派 生 一 个 子 进 程 ， 该 子 进程 服务 于 一 个 
新 的 接收 客户 端 连接 。 这 种 方法 在 开源 实现 6.4 介绍 的 wu-ftp 中 得 到 实现 。 但 还 有 许多 其 他 考虑 了 开 
销 、 延 迟 和 可 扩展 性 问题 的 符 代 方法 来 实现 这 种 并 发 。 派生 一 个 进程 是 昂贵 的 ， 因 为 它 涉及 在 进程 表 
由 创建 一 个 新 的 表 项 、 为 进程 体 分 配 内 存 空 间 、 从 父 进 程 体 向 子 进程 体 复 制 。 一 种 低 开 销 的 蔡 代 方 法 
足 线程 ， 这 里 线程 是 使 用 与 其 父 线程 共享 的 进程 体 创建 的 ， 因 此 没有 内 存 分 配 或 复制 。 开 源 实现 6.6 
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中 的 Asterisk 就 属于 这 一 类 。 男 一 方面 ， 在 服务 到 达 客 户 端 时 派生 或 按 需 生成 线程 会 引入 延迟 。 带 有 
空闲 进程 池 或 线程 的 预 派生 或 预 生成 线程 分 发 肯定 会 减少 这 种 启动 延迟 。 可 以 周期 性 地 监控 该 池 ， 将 
其 大 小 保持 在 高 国 值 和 低 国 值 之 间 。 在 开源 实现 6. 3 中 介绍 的 Apache 就 运行 此 方法 。 

最 后 ,一 个 殉难 的 问题 是 ， 服 务 融 处 理 成 于 上 万 的 并 发 连接 时 的 可 扩展 性 问题 。 这 经 常 发 生 在 代 
理 服务 器 二， 这 种 服务 带 处 在 客户 端 和 服务 器 之 间 : 在 一 台 服 务 器 王 维护 成 后 上 万 的 进程 或 线程 是 不 
可 行 的 。 有 两 种 常见 的 解决 方案 : 党 有 10 多 路 复 用 的 单 进 程 或 服务 于 更 大 量 连 接 并 在 更 小 量 进 程 或 
线程 之 问 切 换 ， 也 就 是 说 ， 没 有 单个 连接 的 进程 或 线程 。 前 者 通过 selsect () 是 数 在 单 进程 中 进行 
MO 复 用 ， 监 听 每 个 连接 套 接 字 的 数组 并 用 新 到 达 的 分 组 处 理 这 些 套 接 字 。Squid 就 是 一 种 这 样 运行 的 
开源 代理 。 后 者 在 整个 连接 生命 周期 内 调度 并 切换 进程 和 线程 池 之 间 的 连接 。 开 源 实现 6. 1 、6.2、6.7 
中 介绍 的 BIND 、qmail 和 Darwin 运行 此 解决 方案 


DNS 查询 : ”递归 或 迭代 

当 我 们 说 一 个 DNS 查询 解析 过 程 是 递归 的 ， 并 不 意味 着 所 有 DNS 服务 器 部 是 递归 的 和 有 状态 的 。 
事实 上， 只 有 本 地 DNS 服务 器 是 递归 的 和 有 状态 的 。 在 DNS 层次 结构 中 的 所 有 其 他 的 DNS 服务 器 是 
迭代 的 和 无 状态 的 。 也 就 是 说 ， 它 们 只 应 答 na DNS 服务 带 来 的 查询 ， 但 不 将 查询 转发 给 
其 他 的 DNS 服务 带 上 ， 原因 是 对 重负 载 尤 其 是 那些 离 层次 结构 中 离 根 较 近 的 服务 器 的 可 扩 | 题 。 
为 一 方面 ， 本 地 DNS 服务 带 不 会 严重 过 载 ， 因 为 pe errr 并 能 够 处 理 递归 解析 。 虽 然 实 
际 不 太 可 能 ,但 本 地 DNS 服务 天 也 有 可 能 迭代 地 运行 。 那么 解析 器 (DNS 客户 端 ) 的 任务 就 是 处 理 
递归 





ALM 与 P2P 
由 于 缺乏 大 规模 部 团 的 网 络 层 IP 组 播 ， le 组 播 ( ALM) 在 21 世纪 初 获 得 了 大 量 关 注 。 顾 
名 思 义 ，ALM 通过 TCP 或 UDP 奉 接 学 支持 参与 季 点 之 间 的 组 应 用 。 也 就 是 说 ，ALM 在 应 用 层 实现 
组 播 服 务 ， 而 不 震 要 网 络 层 组 播 协 以 。 沁 吉 以 袍 窑 科 于 _ 利 煌 于 型 的 对 等 ( P2P) | “， 当 
它 在 应 用 层 构建 组 播 树 并 且 需 要 树 的 中 间 节 点 将 分 组 从 父 节 点 中 继 到 子 节 点 。 因 此 ， 三 局 的 和 行 
为 既 像 数据 的 销 费 者 又 像 数 据 的 提供 者 ， 与 P2P 系统 中 的 对 等 一 样 ， dep ALM 研究 
的 重点 。 男 一 方面 ，P2P 是 指 需 要 或 不 需要 组 播 支 持 的 范围 更 广 的 应 用 程序 。 例 如 ， 最 流行 的 应 用 
(如 文件 共享 ) 就 不 需要 组 播 支 持 。 即 使 是 视频 流 应 用 ， 大 多 数 最 新 开发 的 P2P 系统 采用 数据 驱动 
的 覆 镶 网络， 或 网 状 履 盖 的 概念 ， 而 不 是 树 状 履 盖 ， 主 要 为 了 稳健 性 。Coolstreaming 就 是 一 个 烛 型 的 
实现 例子 。 


一 步 阅 读 











DNS 

日 从 1987 年 DNS 首次 提出 以 来 ， 已 经 提出 一 些 有 关 DNS 的 RFC。 这里， 我 们 列 出 了 一 些 经 典 的 
RFC 标准 。Albitz 和 Liu 还 出 版 了 一 本 关于 此 内 容 很 受 欢 迎 的 书 。 为 了 便于 学 习 ， 还 增加 了 BIND 项 目 
主页 

e P.Mockapetri, “Domain Names—Concept and Facilities,” RFC 1034, Nov. 1987. 

® P.Mockapetri, “Domain Names 一 Implementation and Specification,” RFCI1035 Nov. 1987. 

® M.Crawford, “Binary Labels in the Domain Name System, ” RFC 2673, Aug. 1999. 

® PP. Albitz and C. Liu, DNS and BIND, 5 th edition ，O Reilly, 2006. 

® BIND: a DNS server by Internet Systems Consortium, available at https: /A/www. isc. org/ products/ BIND/ 


邮件 
下面 我 们 列 册 一些 有 关 电 子 邮 件 的 最 新 RRC。 很 明显 ， 电 子 邮 件 系 统 的 设计 从 来 没有 停止 过 演变 。 
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还 为 你 建立 电子 邮件 系统 的 初步 试验 提供 了 qmail 项目 网 站 


® J Yaoand W. Mao, “SMTP Extension for Internationalized E-mail Addresses,” RFC 5336, Sept. 2008. 
® .Klensin, “Smple Mail Transfer Protoeol,™ RFGC 5321, October 2008. 
® PP. Resnick, “nternet Message Format,” RFGC 5322, October 2008. 


® The qmail project, http: A/www. qmail. org/top. html. 


WWW 


以 下 是 有 大 WWW 的 一 些 经 典 车 作 ， 其 中 人 包括 一 篇 有 关 Web 搜索 的 先 坚 性 文章 和 HTTP 1.1 的 
RFC，1999 年 对 HTTP 1.0 更 新 后 它 就 得 到 了 广泛 应 用 。， 还 可 以 阅读 Tim Berners-Lee 有 关 WWW 未 来 保 
构 的 描述 

es Lawrence and CL Giles, ”Searching the World Wide Web,™ Science, Apr. 1998. 

® R.Fielding et al., “Hypertext Transfer Protocol = hitp/l. 1,.™ RFC 2616, June 1999. 

® World Wide Web Consortium (W3C), “Architecture of the World Wide Web, Volume One,” W3C 

Recommendation Dec. 2004. 


e The Apache project 是 http : /LAWwW- apache. org/. 


FTP 


似乎 FTP 的 发 展 仍然 处 在 不 断 进 行 中 ， 人 尽管 速度 相对 缓慢 。 你 可 能 会 对 最 新 的 FTP 扩展 性 感觉 好 
奇 。 那 就 不 妨 学 习 RFC 3659 

日 j Postel and J. Reynolds, “Pile Transfer Protocol (FTP).”RFC 959, Oct. 1985. 

e SS. Bellovin, “Firewall-Friendly FTP,™ RFC 1579, Feb. 1994. 

® M. Horowitz et al , “ FTP Secunty Extensions,” REFC 2228, Oct. 1997. 

® P. Hethmon, “Extensions to FTP,” RFC 3659, Mar. 2007. 

® The wu-ftp project, available at http: A/www. wu =- ftpd. org/. 


SNMP 


有 关 SNMP 的 RFC 数量 会 令 你 大 上 一 尺 。 下 而 是 一 些 重 要 RFC， 供 大 家 参考 。 但 我 们 建议 你 迷失 
在 SNMP 丛林 中 之 前 头 一 本 书 来 看 看 

e M. Rose and RK. McCloghnie, “Structure and Identification of Management Information for TCP/IP - 
based Tnternets,” RFGC 1155, May 1990. 

e .Case etal. ”ASimnple Network Management Protocol (SNMP),™ RFC 1157, May 1990. 

® Case el al. , “Textual Conventions for Version 2 of the Simple Network Management Protocol (SNMPv2 ) ， 
RFC 1903, Jan. 1996. 

® 由 Case et al. ,Protocol Operations for Version 2 of the Simple Network Management Protocol (SNMPv2),” 
RFC 1905, Jan. 1996. 

® J Caseetal., “Management Information Base for Version 2 of the Simple Network Management Protocol 
(SNMPv2),” RFC 1907, Jan. 1996. 

® J Case et al ,ntroduction to Version 3 of the Internet = Standard Network Management Framework .” 
RFC 2570, Apr. 1999: 

® D.THarington, “An Architecture for Describing SNMP Management Frameworks,” RFC 2571, Apr. 1999. 

® The Net-SNMP project, available at http: A/www. net - snmp. org/. 

es Douglas Mauro and Kevin Schmidt, Essential SVMP, 2nd edition. O° Reilly 2005. 


VolP 


~ 是 有 关 VolP 主要 构件 的 RFC 。 RTCP 是 RFC 3550 的 一 部 分 .使 用 Asterisk 体验 VolP 的 世界 
e M. Handley et al. “Session Announcement Protocol,” RFC 2974, Oct. 2000. 


详 有 尾 人 





e@ Rosenburg et al. , “SIP; Session Initiation Protocol, ”REFC 3261 ，June 2002. 
® 1 Schulzrinne et al. ,“RTP:A Transport Protocol for Real-Time Applications,™ RFC 3550, July 2003. 


® Asterisk, the Open-Source PBX and Telephony Platform, available at www. asterisk. org/. 


流 媒 体 

尽管 流 媒体 应 用 的 传输 协议 各 异 ， 但 不 管 是 普通 常用 的 RIP 还 是 如 来 自 RealNetworks 的 专 有 的 
RDT， 采 用 的 探 制 协议 基本 上 者 是 采用 RTSP。 试 用 Darwin 和 Helix 软件 包 。 此 外 ， 也 不 要 错过 利用 最 
热门 的 RTMP 协议 的 学 习 ， 像 YouTube 的 Flash 视频 门户 网 站 就 是 利 | 该 协议 的 。 

® H. Scehulzrinne et al. , * Real Time Streaming Protocol (RTSP),™” RFGC 2326, Apr. 1998. 

® MKaufmann, “QuckTime Toolkit Volume One: Basic Movie Playback and Media Types,” Apple Com- 

puter, lne. , 2004. 
® The Darwin Project, available at http: /A/developer. apple. com/ opensource/ server/ streaming/ index. html. 
® The Helix Project, available at http: //en. wikipedia. org/wiki/ Helix_ (project). 


® The RTMP protocol specification, available at http: //www. adobe. com/ devnet/rtmp/. 
P2P 
厌倦 肤浅 的 P2P 客户 端 介绍 了 吗 ” 下 面 的 研究 工作 一 定 会 让 你 深入 理解 P2P 


®0. Lv, P: Cao, E. Cohen K. Ei and S. Shenker, “Search and Replication in Unstructured Peer-to-Peer 
Networks,™ in Proceedings of ACM Supercomputing, 2002. 

® S.Androutsellis-Theotokis and D. Spinellis, “A Survey of Peer-to-Peer Content Distribution Technolo- 
gies,” ACM Computing Surveys, Vol. 36, No.4, pp. 335-371 ，Dec. 2004. 

e Daniel Hughes, Geoff Coulson, and James Walkerdine, “ Free Riding on Gnutella Revisited: The Bell 
Tolls?,™ JEEE Distributed Systems, Vol.6, No.6, June 2005. 

e Javed I. Khan and Adam Wierzbicki (eds. ) , “Foundation of Peer-to-Peer Computing, ”Special Issue, 


Computer Communications, Volume 31, [ssue 2, Feb. 2008. 


常见 问题 解答 
1. 为 什么 大 多 数 互 联网 应 用 的 协议 消息 是 ASCI 和 可 变 长 度 ? 
答 : ASCIH: 容易 解 公 并 且 可 炎 活 地 扩展 
可 变 长 : 更 广泛 的 参数 值 和 长 度 
2. 为 什么 运行 在 TCP 和 UDP 之 上 的 服务 器 分 别 会 有 六 发 和 过 代 实 现 ? 
答 : 并 发 : 如 果 服 务 时 间 重 秋 (通常 较 长 ) 
从 代 : 如 果 服 务 时 间 没 有 重 营 ( 通 妆 较 短 ) 
TCP: 可 靠 的 面向 连接 服务 。 
UDP: 不 可 靠 的 无 连接 服务 
最 带 见 的 组 合 是 并 发 TCP (长 时 间 和 可 靠 的 ) 和 迭代 UDP (短期 和 不 可 靠 的 )。 
3. DNS 服务 肯 如 何 将 域名 解析 为 IP 地 址 ? 
答 : 本 地 成 名 服务 天 首先 检查 前 己 的 缓存 ， 如 化 结 求 没有 命中 ， 它 就 查询 人 根 域名 服务 器 ， 将 本 地 域 
名 服务 器重 定向 到 二 级 域名 服务 器 。 一 级 域名 服务 器 青 重 定向 到 级 域名 服务 器 ， 以 此 类 推 。 直 诗 
有 一 全 域名 服务 器 对 该 域名 响应 一 个 RR 记 隶 (A 记 尖 ) 这 个 过 程 是 迭代 的 ,这 比 递归 更 常见 
(所 有 相关 的 和 名字 服务 器 在 查询 过 程 中 震 昌 你 持 状态 ) 
4. DNS 服务 占 如 何 将 四 地址 解析 为 域名 ? 
答 : 除了 将 A 记录 符 代 为 PTR 记录 外 ， 3 的 答案 相同 
在 前 向 DNS 和 反 向 DNS 中 分 别 使 a 
答 : 前 向 DNS: A 记录 
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反 向 DNS:，PTR 记录 。 


， 如果 你 发 送 一 封 电 子 邮 件 让 朋友 阅读 会 涉及 什么 样 的 实体 和 协议 ? 


答 : SMTP: MUA (邮件 用 户 代理 ) 一 本 地 邮件 服务 器 的 MTA (邮件 传输 代理 ) 

SMTP: 本 地 邮件 服务 器 的 MDA (邮件 投递 代理 ) 一 远程 邮件 服务 避 MDA 的 MTA 一 远程 邮件 服务 右 
邮箱 

POP3 或 IMAP4: 远程 邮件 服务 器 的 MRA (邮件 检索 代理 ) 一 MUA 


. POP3 与 IMAP4 有 哪些 不 同 ?( 比较 命令 的 数量 、 灵 活性 和 使 用 ,) 


答 : 命令 的 数量 : IMAP4 > POP3 

灵活 性 : IMAP4 > POP3 

使 用 : Web 邮件 (IMAP4) 与 下 载 (如 Outlook) (POP3 ) 
当 你 从 服务 右 下 载 邮件 时 ， 交 换 了 哪些 POP3 消息 ? 

答 : STAT、LIST、RETR 、DELE 、OUIT、+OK、- ERR 等 。 


-在 下 载 、 填 写 和 上 传 Web 表单 时 ， 交 换 了 哪些 HTTP 消息 ? 


答 : GET、POST 或 PUT、HTTP/A1. 1 200 OK 等 


. 在 HTTP 1.1 中， 连接 持久 性 意味 着 什么 


答 : 可 以 在 一 次 TCP 连接 中 发 送 多 个 HTTP 请 求 。 


.前 向 缓存 与 反 向 缓存 有 什么 不 同 ?( 比较 它们 的 位 置 和 缓存 内 容 .) 


答 : 前 向 缓存 : 在 内 容 消 费 者 一 端 (客户 端 )， 来 自 许 多 站 点 的 异 构 性 
反 向 缓存 : 在 内 容 提 供 者 一 端 (大 的 Web 站 点 ) ， 来 自 该 站 点 的 同 构 性 


. HTTP 代理 如 何 拦截 发 向 HTTP 服务 器 的 HTTP 请 求 ? 


答 : 它 与 客户 端 进行 TCP 三 次 握手 ， 接 受 HTTP 请 求 ， 处 理 请 求 〈 如 缓存 、 过 滤 、 日 志 记 录 ) ， 如 
果 OK 就 向 客户 端 发 送 HTTP 响应 。 如 果 需 要 ， 它 建立 一 条 与 HTTP 服务 天 的 TCP 连接 ,将 HTTP 
请 求 转 发 给 服务 咒 ， 获 得 响应 ， 处 理 响 应 di Ey 响应 返回 给 客户 站 

如 果 HTTP 缓存 代理 发 生 缓存 未 命中 ,那么 它 会 做 什么 一 个 特定 的 客户 端 ， 可 以 建立 多 少 
条 TCP 连接 ? 

答 : 它 会 建立 一 条 到 服务 涡 的 TCP 连接 并 将 请 求 转 发 给 服务 器 。 然 后 将 响应 传 回 客 户 端 。 它 有 两 
条 TCP 连接 : 一 条 TCP 连接 是 与 客户 端 ， 另 外 一 条 TCP 连接 是 与 服务 天 


- 主动 模式 与 被 动 模式 FTP 的 区 别 ?”( 从 不 同 的 角度 描述 模式 以 及 如 何 建 立 数据 连接 。) 


答 : 从 服务 天 的 角度 来 看 ， 

主动 模式 : 客户 端 通过 控制 连接 ， 回 服务 顺 发 出 “端口 卫 地 址 端口 号 "”。 服务器 回复 200， 然 后 连 
接 到 客户 端 以 便 建 立 数据 连接 。 

被 动 横 式 : 客户 端 通过 探 制 连接 ， 回 服务 带 发 出 “PASV” 通 过 到 服务 器 的 控制 连接 。 服 务 天 用 它 
怎 意 监听 的 IP 地 址 和 端口 号 应 答 。 然 后， 将 客户 端 连接 到 指定 的 端口 ， 建 立 数据 连接 


FTP 中 的 控制 和 数据 连接 ? (解释 为 什么 需要 两 条 连接 ,) 


答 : 这 种 带 外 信 令 用 来 交换 控制 消息 ， 其 至 当 正 在 进行 长 的 数据 传输 时 也 是 如 此 。 

FTP 中 下 传 和 下 载 一 个 文件 时 ， 分 别 使 用 主动 模式 和 被 动 模式 ， 在 控制 连接 上 交换 了 哪些 协议 
消息 ? 

答 : 主动 下 载 : PORT 、 200、RETR、 200. 

被 动 下 载 : PASV 、200IP 地 址 端口 号 、RETR 、200。 

主动 上 传 : PORT 、200 、STOR 、200 

被 动 上传 PASV、200IP 地 址 端口 号 、STOR、200。 

为 什么 流 媒体 对 互联 网 时 延 、 拌 动 和 丢失 具有 健壮 性 ? 

答 : 许多 流 媒 体 源 采用 一 种 可 伸缩 的 分 层 编码 方案 ， 它 们 根据 测量 的 网 络 状 况 ， 调 整 自 己 的 编 解 
但 位 速率 。 大 多 数 流 媒体 接收 需 带 有 一 个 抖动 缓冲 区 用 于 延迟 音 频 “ 视 频 的 播放 时 间 以 便 吸 收 持 动 
并 顺畅 地 播放 。 由 于 流量 是 单 向 而 无 交互 的 ， 所 以 增加 的 延迟 用 户 还 是 可 以 忍受 的 
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练习 


动手 练习 
1. 首先 阅读 BIND9 的 “dig” 手 册 (包括 最 新 版 本 ) ， 尤 其 是 “+trace”( 跟 踪 ) 和 “+recursive”( 递 昭 ) 
选项 ， 并 回答 下 列 问 题 。 
a， 默认 情况 下 ， 通 过 dig 产生 的 查询 是 递归 查询 (因此 本 地 域名 服务 器 继续 代表 客户 端 进行 查询 )。 为 
什么 要 使 用 dig (或 者 其 他 应 用 程序 中 的 解析 器 例 程 )7 递归 查询 www. ucla. edu， 解 释 在 应 答 中 的 所 有 5 
个 部 分 中 的 每 个 RR 
b， 在 使 用 dig 对 www，nucla，edu 进行 迭代 查询 中 ， 描 述 咨询 过 的 每 舍 域名 服务 器 
.在 Linux PC 上 使 用 qmail 建立 电子 邮件 系统 。 系 统 应 该 提供 SMTP、POP3 和 IMAP4 服务 。 逐步 写 下 操作 
步骤 .请 参阅 http: /Awww. qmail. org/ 中 的 文档 
3. 阅读 SMTP 和 POP3 命令 。 然 后 telnet 你 的 SMTP 服务 器 〈 端 口 253) 并 给 自己 发 送 一 条 消息 。 在 此 之 后 ， 
telnet 你 的 POP3 服务 器 (端口 110) 并 检索 该 信息 。 记 录 在 该 会 话 中 发 生 的 一 切 
4 在 Linux PC 机 上 上 使 用 Apache 构建 一 台 Web 服务 器 。 修 改 配置 文件 以 便 建 立 两 个 虚拟 主机 。 此 外 ， 编 写 
一 些 HTML 页 面 ， 并 把 它们 放 在 Apache 的 文档 根 目 录 中 。 写 下 虚拟 主机 的 设置 并 对 显示 HTML 文件 的 
浏览 器 屏幕 抓 图 。 
5. Telnet 你 的 Web 服务 器 〈 端 口 80) 上 于， 并 使 用 HTTP 1.0 获得 一 个 文档 。 观 察 HTTP 响应 头 部 。 记 录 在 
该 会 话 中 发 生 的 一 切 。 
6， 在 Linux PC 机 上 使 用 Squid 构建 缓存 代理 服务 器 ， 并 且 配 置 让 你 的 Web 浏览 器 使 用 它 ， 浏览 自己 的 Web 
站 点 并 跟踪 Apache 和 Squid 的 日 志文 件 ， 观 察 是 对 哪个 服务 器 服务 请 求 。 解释 日 志文 件 的 内 容 
7. 读 取 HTTP 请 求 和 响应 头 部 的 描述 .使 用 Sniffer 或 类 似 的 软件 观察 在 练习 6 中 生成 的 HTTP 请 求 和 响应 
截屏 并 加 以 解释 
8， 安 装 并 运行 wu-ftpd 或 任何 其 他 的 FTP 服务 器 。 将 它 配置 为 支持 两 个 虚拟 的 FTP 服务 器 并 实现 即时 床 
缩 。 写 出 每 步 操作 和 配置 文件 。 
9， 安 装 并 运行 Net-SNMP。 在 本 地 主机 使 用 snmpbulkget 检索 tcpConnTable。 写 下 每 步 操作 并 记录 下 结果 。 
10， 研 究 局 部 性 ， 通 过 更 改 getNextOptimisticpPeer () 函数 中 的 随机 选择 代码 ， 将 往返 时 间 延 迟 考 
虑 进来 。 例 如， 你 可 能 优先 考虑 具有 更 低 往返 延迟 的 对 等 。 讨 论 在 选择 乐观 下 通 对 等 时 为 什么 考 
虑 局 部 性 很 重要 。 注 意 ， 乐 观 蚁 通 起 到 查找 潜在 针锋相对 对 等 的 最 初 赋值 角色 。 


书面 练习 
1. 在 本 章 中 介绍 的 互联 网 应 用 中 使 用 了 哪个 端口 和 启动 模式 (是 (x)inetd 还 是 单机 )” 将 答案 列 成 一 
张 表 

， 在 处 理 并 发 请 求 时 ， 交 互 的 无 连接 服务 器 与 并 发 的 面向 连接 服务 器 的 主要 区 别 是 什么 ? 

.在 图 64 中 ，nctu 域 中 有 多 少 个 区 ? 

.有 多 少 个 根 域名 服务 器 ? 请 列举 出 来 

， 在 下 列 情 况 下 可 以 使 用 什么 样 的 RR? 使 用 例子 解释 其 中 的 每 一 个 ， 
a， 在 前 向 查询 过 程 ， 
b， 在 反 向 查询 过 程 , 
c， 解析 域名 B， 它 是 域名 A 的 别名 
d， 在 邮件 转发 中 

6. 发 送 电 子 邮件 时 ,我 们 可 以 将 收 件 人 的 电子 邮件 地 址 放 存 Ce: 和 Bec: 字段 。 两 个 字段 之 间 有 什么 
区 别 ? 

7.， Webmail 是 基于 Web 浏览 器 的 ， 并 有 晶 包 括 对 POP3 和 IMAP4 的 支持 。 说 明基 于 POP3 协议 的 Webmail 和 
基于 IMAP4 的 Webmail 之 间 的 差异 

8. 垃圾 邮件 是 以 相同 电子 邮件 的 多 份 副本 洪 泛 互联 网 ， 企 图 迫使 不 愿意 接受 它 的 人 们 不 能 有 选择 地 接收 消 
息 。 提 出 一 些 与 垃圾 邮件 做 斗争 的 策略 ， 
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9. URI、URL 和 URN 之 间 的 关系 是 什么 ”对 于 每 种 方案 写 出 两 个 例子 ， 并 解释 其 含义 

10. HTML 和 XML 有 什么 相同 和 不 同 之 处 ? 

11， 什么 是 HTTP 1.1 流水 线 和 持久 连接 ”它们 都 有 了 哪些 优点 ? 

12.， 描述 HTTP 和 HTML 如 何 将 HTTP 重 定 向 色 不 同 的 目的 地 

13. 缓存 代理 何 时 不 再 缓存 一 个 对 象 ? 

14， 强 缓存 一 致 性 和 蚤 缓存 一 致 性 有 了 哪些 主要 区 别 ?” 那 种 方案 适用 于 新 闻 站 点 ?为 什么 ? 

15. 不 经 过 手动 修改 就 能 计 浏 览 器 使 用 代理 缓存 ， 那 公 关 从 关机 HTTP 请 求 通过 缓存 代 型 ? 

16. 分 别 描述 (包括 使 用 的 命令 科 参 数 ) 为 FTP 设立 一 个 主动 和 被 动 连接 的 过 程 。 假设 已 经 在 端口 21 上 上 
建立 控制 连接 

17. 解释 图 6-34 中 FTP 会 话 例 子 的 应 答 代码 

18. ASN. 1 、SMI 和 MIB 之 问 有 何 关系 ” 

19. 管理 站 点 如 何 有 效 地 使 用 GetNextRequest PDU 获得 图 6-39 中 MIB 树 中 的 对 和 象 》 请 说 明 这 一 点 ( 提 
示 :; 在 可 变 绑 定 列表 中 的 多 个 对 象 ) 

20. 一 个 代理 有 具有 什么 样 的 应 用 ? SNMP 代理 如 何 处 理 对 它 的 引擎 和 应 用 的 查询 请 求 ? 

21.， 比较 通过 IP 和 帧 中 继 传输 语音 的 利 上 刺 。 请 在 性 能 和 部 署 拓 扑 /成 本 上 进行 比较 

22. SIP、SDP 和 SAP 之 间 的 关系 是 什么 ? 

23. H.323 和 SIP 之 问 的 区 别 是 什么 ”从 它 的 组 件 和 功能 方面 进行 解释 。 

24. RTSP 和 HTTP 流 媒 体 之 问 者 有 哪些 优点 和 缺点 ? 

25. QoS 控制 在 流 媒体 服务 融和 客户 端 是 如 何 实 现 的 ”如 果 分 组 的 延迟 /抖动 很 高 ， 那 么 客户 端 会 如 何 做 ? 

26， 在 流 媒 体 中 ， 音 频 和 视频 信息 是 如 何 同步 的 ? 
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互联 网 服务 质量 


互联 网 已 经 以 健康 的 方式 发 展 了 数 十 年 。 它 的 健康 性 极 大 地 依赖 于 TcCP， 它 利用 端 到 端的 拥 赛 控 
制 避 免 互 联网 上 的 超载 。 然而， 运行 在 UDP 二 的 实时 应 用 ， 如 流 媒体 、VolP 和 部 分 P2P 不 是 TCP 友 
好 的 ， 如 5.5 节 中 的 讨论 。 它 们 其 中 的 某 些 还 旨 求 特定 的 服务 质量 (QoS)。 对 于 这 些 应 用 需要 预 留 是 
人 够 的 带宽 ， 以 保证 低 的 或 有 限 的 延迟 、 低 玫 失 率 、 低 抖动 的 wos， 

遗憾 的 是 ， 日 前 很 难为 互联 网 提供 这 样 的 路 径 ， 因 为 互联 网 是 建立 在 自由 竞争 的 网 络 体系 结构 上-， 
其 核心 是 无 状态 的 ， 而 将 复杂 的 控制 功能 推 给 终端 主机 。 因 此 ， 在 终端 主机 上 修改 协议 比 在 中 间 路 由 
器 和 交换 机 上 修改 协议 容易 得 多 ， 大 多 数 下 路 由 器 只 支持 尽力 而 为 的 服务 ， 路 由 占有 尽 可 能 快 地 转发 任 
何 应 用 的 分 组 市 不 关心 终端 主机 足 否 或 者 何 时 才能 够 接收 到 更 具体 地 说 ， 人 尽力 而 为 服务 意味 着 将 到 
达 路 由 器 的 所 有 分 组 插入 队列 中 ， 直 到 队列 流出 为 止 ， 而 路 由 器 以 最 大 速率 按 顺 序 发 送 队列 中 分 组 
当 网 络 负 载 很 轻 时 ， 尽 力 市 为 服务 对 于 大 多 数 应 川 来 讲 是 是 够 的 。 然 而 ， 负载 收 关 于 互联 网 党 宽 多 快 
地 增长 与 新 的 应 用 和 用 户 多 快 地 消耗 互联 网 的 尝 宽 

我 们 应 该 如 何 做 才能 将 互联 网 变 成 能 够 支持 Qos 的 网 络 呢 ?这 里 可 以 参阅 异步 传输 模式 (ATM ) 
网 络 来 找到 答案 ， 因 为 它 能 够 支持 QoS。 受 到 ATM 网 络 中 QoS 设计 的 启发 ， 人 研究 人 员 提 出 了 类 似 的 体 
系 结构 ， 称 为 集成 服务 (ImtSer) ， 为 两 个 终端 主机 之 间 提 供 一 条 具有 党 宽 和 禾 退 保证 的 路 径 ， 类 似 于 
ATM ，IntServ 中 某 个 流 的 终端 主机 在 发 送 分 组 之 前 需要 与 路 由 融 协 商 以 建立 一 条 流 路 径 并 沿 着 路 径 预 
留 资源 。 此 外 ， 在 预 留 路 径 [的 所 有 路 由 帮 ， 像 通常 一 样 它们 不 仪 尖 要 知道 分 组 应 该 向 和 何 处 转发 ， 市 
且 还 要 知道 何 时 是 转发 分 组 的 正确 时 间 以 满足 其 QoS 的 要 求 ， 为 了 达到 这 一 目标 ， 路 由 器 中 单 队列 体 
系 结构 被 多 个 按 每 个 流 的 队列 (这 里 分 组 不 再 以 先入 先 出 (FIFO) 方式 服务 ) 所 到 代 pe 
由 融 时 ， 将 它 分 发 到 一 个 专门 的 队列 并 且 旨 比 其 他 更 早 到 达 的 但 是 被 分 发 到 低 优 先 级 队列 中 的 分 组 更 
早 发 送 

遗憾 的 是 ，IntServ 的 按 每 个 流 的 处 理 在 全 球 互 联网 ,或 者 此 至 属于 单一 服务 提供 商 的 区 域 网 络 这 
样 的 大 型 网 络 中 是 不 可 扩展 的 。 因 些 ， 提 出 了 名 为 区 分 服务 ( DiffServ) 的 另 一 种 体系 结构 .不 再 采取 
按 每 个 流 的 处 理 ，DiffSery 的 基本 日 标 是 执行 每 个 类 的 处 理 ， 以 便 提供 沉 有 区 分 服务 类 的 主机 。， 主 机 使 
用 网 络 之 前 首先 与 服务 提供 商 协商 确定 它们 所 震 的 服务 类 ， 调 服务 提供 商 为 服务 类 分 配 已 经 协议 好 数 
量 的 资源 。 然 后 ，DiffServ 网 络 的 每 一 跳 将 按照 其 服务 类 以 不 同 的 转发 行为 来 处 理 分 组 。 由 于 在 Diff- 
Serv 内 ， 动 态 路径 建 立 和 按 需 资源 预 留 不 是 必 震 的 ， 所 以 它 比 Intserv 更 简单 、 更 县 可 扩展 性 。 因 此 ， 
它 就 更 加 有 可 能 在 互联 网 上 实施 

除了 IntServ 或 DiffServ 外 ， 为 本 在 控制 平面 和 数据 平面 提供 整体 解决 方案 ， 还 必须 提供 哪些 基本 
组 件 ? 7. 1 节 将 以 概括 的 方式 回答 这 个 问题 ， 并 提供 了 一 个 QoS 框架 。 它 还 描述 了 将 Linux 系统 流量 控 
制 (TC) 模块 作为 QoS 框架 的 参考 设计 然后 7 2 节 将 深入 研究 前 面 两 种 QoS 体系 结构 ， 按 每 个 流 的 
集成 服务 和 按 每 个 类 的 DiffServ， 并 对 它们 之 间 的 区 别 进行 比较 

虽然 色目 前 为 止 还 没有 大 和 规模 实现 QoS 的 IP 网 络 存在 ,但 大 和 多数 IP 流量 控制 模块 已 经 在 操作 系 
统 中 提供 了 。 事 实 上 ， i ee tie 器 、 网 关 或 服务 融 1 上， 尽管 尚未 部 回 整 体 的 
QoS 解决 方案 。 因 此， 很 值得 进一步 研究 这 些 组 件 。 以 便 了 解 为 它们 已 经 开发 了 哪些 替代 算法 ? 7.3 节 
对 这 个 问题 昭 进 行 了 问答 与 Ca 论 一 起 ， 还 提出 了 在 Linux 下 和 TC 的 开源 实现 以 便 演示 TC 
中 采用 的 算法 ， 并 研究 它 如 何在 路 由 需 中 实现 





历史 演变 : 2000 年 左右 QoS 的 炒作 
20 世纪 90 年代， 由 于 万 维 网 (WWW) 的 引入 造就 了 互联 网 奇迹 ，WWW 不 仅 提升 了 互联 网 的 用 
户 数量 ， 而 且 还 改变 了 互联 网 的 内 容 lh 从 静态 到 动态 )， 最 初 通 过 电视 和 电话 传输 
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的 内 容 目前 改 成 在 互联 网 上 传播 这 些 意 想 不 到 的 变化 用 尽 了 互联 网 的 带宽 ， 并 引发 了 资源 预 留 的 


[i 未 
TD 天 


对 于 这 个 问题 ， 由 于 当时 的 互联 网 带宽 的 高 成 本 ， 研 究 人 员 研 究 了 如 何 将 流量 划分 成 不 同 的 类 ， 
然后 为 付费 用 户 提供 优质 的 服务 ， 并 向 公众 提供 尽力 而 为 服务 ， 假 设 所 有 流量 物理 地 在 同一 个 网 络 上 
传输 ， 与 此 同时 ， 其 他 研究 人 员 试 图 以 较 低 的 成 本 增加 链 路 带宽 。 最后， 由 于 光纤 技术 的 突破 ,互联 
网 的 带宽 变 得 廉价 、 丰 富 ， 甚 至 过 度 供给 。 当 需要 更 多 的 带宽 时 ， 互 联网 服务 提供 商 只 需 更 多 投资 建 
设 更 高 带宽 的 光纤 链 路 。 因 此 ，21 世纪 初 有 关 互 联网 上 有 关 QoS 研究 论文 的 发 表 数 量 逐 渐 减 少 

目前 ， 来 自 互联 网 的 QoS 问题 和 需求 消失 了 吗 ? 没有 ， 它 的 战场 刚刚 从 有 线 转 移 到 无 线 环境 ， 由 
于 无 线 带 宽 目 前 仍然 是 稀缺 的 ; 还 从 网 络 转移 到 服务 器 ， 因 为 网 络 带 宽 足 够 大 时 服务 器 就 会 成 为 瓶颈 
事实 上 ， 很 容易 在 新 的 无 线 标准 (如 WiMAX) 中 找到 QoS。 然 而 ，QoSs 问题 的 范围 目前 局 限于 链 路 和 
节点 上 ， 而 不 是 全 球 互联 网 


7.1 一 般 问 题 

为 了 能 在 IP 网 络 中 提供 Qo58，IP 路 由 器 需要 配备 许多 额外 的 功能 ， 首先， 主机 需要 通过 信 令 协 
议 ， 要 求 沿 着 到 其 到 目的 地 路 径 上 的 路 由 器 预 留 资源 ， 请 求 可 能 被 路 由 通过 一 条 路 径 ， 该 路 径 上 的 路 
由 器 有 更 好 的 机 会 来 提供 请 求 的 资源 ， 这 称 为 QoS 路 由 ， 它 与 普通 的 不 关心 资源 可 用 性 的 路 由 相对 应 
然后 沿 着 该 路 径 上 的 路 由 器 执行 许可 控制 ， 接 受 或 拒绝 请 求 。 如 果 一 台 主 机 的 预 留 请 求 被 路 径 上 的 所 
有 路 由 器 接受 ， 那 么 路 由 器 就 预 留 资源 并 准备 服务 于 从 主机 发 出 的 流量 。 路 由 器 需要 强制 Qos 供应 ， 
所 有 传 入 的 分 组 首先 划分 为 按 每 个 流 或 按 每 个 类 的 队列 ， 监 管 队 列 看 看 它们 消耗 的 资源 是 否 比 请 求 的 
多 ， 然 后 调度 这 些 队列 以 便 保 证 它们 能 够 得 到 它们 名 下 的 共享 带宽 。 这 些 数据 平面 操作 分 别称 为 分 类 
监管 和 调度 

以 最 通用 的 形式 ，QoS 框架 可 能 有 6 个 组 件 ， 如 图 7-1 所 示 ， 在 本 节 中 ， 我 们 将 介绍 它们 的 概念 和 
功能 。 从 讨论 中 可 以 看 到 在 设计 它们 时 的 困难 。 对 每 个 组 件 的 算法 设计 讨论 将 留 到 7.3 节 中 讨论 。 最 
后 ， 我 们 给 出 在 Linux 下 开源 流量 控制 (TC) 模块 的 概述 










QoS 网 络 的 需求 


信 令 加 本 ee 
协议 JOY HH J fl 
分 类 监管 ] 调度 


图 7-1 构建 QoS 感知 网 络 元 素 的 6 个 组 件 

















7. 1. 1 信念 协议 

训令 协议 是 用 于 与 路 由 器 协商 资源 预 留 的 一 种 常见 语言 。 这 是 支持 QoS 网 络 的 第 一 个 需求 ， 因 为 
Qos 是 通过 网 络 中 的 所 有 主机 和 路 由 需 之 间 的 合作 提供 的 。 出 于 各 种 目的 ， 提 出 了 多 种 信 令 协议 。 其 
中 ， 最 有 名 的 信和 令 协 议 是 资源 预 留 协议 (RSVP) ， 它 被 应 用 程序 用 于 在 网 络 中 预 留 资源 。 另 一 个 例子 
是 公共 开放 策略 服务 (COPS) 协议 ， 这 是 一 种 简单 的 查询 - 响应 协议 ， 用 于 部 分 QoS 管理 体系 结构 的 
策略 管理 系统 中 。 在 正 TF 中 成 立 一 个 新 的 名 为 下 一 步 信 令 (NSIS) 的 工作 组 ， 以 便 研究 更 灵活 的 IP 
信 令 体系 结构 和 协议 (参见 RFC 4080 ) ， 


7.1.2 QoS 路 由 
如 果 将 路 由 看 做 在 岔路 口 引导 车 辆 的 静态 道路 标志 ， 那 么 QoS 路 由 就 可 以 看 做 是 一 个 高 级 道路 标 
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志 系 统 ， 它 不 仅 提供 经 过 各 种 道路 到 达 目 的 地 的 距离 ， 而 且 提供 车 辆 项 计 到 达 的 时 间 。 它 根据 各 条 首 
路 的 拥堵 状况 提供 上 述 信息 。 在 当前 的 IP 网 络 中 ， 路 由 器 根据 一 些 基 本 信息 (如 目的 PP 地 址 ) 选择 
最 小 跳 数 的 路 径 ， 这 就 好 像 路 标 上 的 距离 信息 。 但 是 ，Qos 路 由 器 还 需要 考虑 带宽 、 延 迟 和 满足 QoS 
要 求 的 路 径 上 的 丢失 率 。 因 为 这 个 信息 比 起 跳 数 更 动态 ， 所 以 在 一 个 大 型 网 络 中 它们 就 更 难以 收集 和 
交换 。 


7. 1.3 许可 控制 

Qos 路 由 ， 就 像 前 边 高 级 道路 标志 系统 的 例子 一 样 ， 可 以 指导 分 组 到 最 佳 路 径 ， 但 选择 的 道路 以 
后 还 可 能 会 拥塞 。 为 了 使 分 组 避免 产生 拥塞 ， 需 要 进一步 控制 在 路 径 中 许可 的 分 组 数量 和 类 型 。 许 可 
控制 就 负责 这 项 工作 。 它 是 部 署 在 网 络 或 网 关 路 由 器 中 的 项 目 ， 通 过 比较 现 有 可 用 的 资源 量 与 所 需要 





的 资源 量 ， 决定 该 分 组 是 否 允 许 进 入 网 络 。 这 样 的 比较 是 困难 的 ， 因 为 资源 量 是 随时 间 变 化 的 。 图 7-2 
显示 了 一 个 例子 。 一 个 3 Mbps 的 带宽 请 求 到 达 路 由 带 A。 然后， 路 由 带 根 据 随 时 间 变 化 的 可 用 带宽 决 


定 是 否 接受 请 求 。 路 由 器 A 的 决策 难度 在 于 如 何 正 确 估 计 和 带宽 的 使 用 ， 以 确保 有 是 够 的 带宽 成 功 转发 
许可 的 流量 ， 同 时 保持 带宽 的 高 度 利用 。 















需要 一 条 3Mbps " 带宽 约束 
的 路 径 。 分 组 丢失 约束 
最 大 支持 的 BW 
时 间 
图 72 许可 控制 的 操作 例子 





7. 1.4 分 组 分 类 

一 个 合适 的 路 径 分 别 通过 信和 令 协议 、QoS 路 由 和 许可 控制 经 过 协商 、 选 择 、 允 许 后 ， 最 后 将 分 组 
发 送 到 日 的 地 。 然 而 ， 为 了 强制 执行 QoS， 网 络 仍然 需要 一 个 组 件 来 标识 分 组 。 例 如 ， 我 们 需要 知道 
分 组 属于 哪个 流 ， 以 便 提 供 相应 的 QoS。 因 为 有 不 同 的 规则 对 分 组 进行 分 类 ， 所 以 可 能 会 经 过 多 次 比 
较 将 某 个 分 组 分 类 为 某 一 个 特定 的 流 或 类 。 昌 然 分 组 分 类 工作 十 分 繁重 ， 但 服从 许多 分 类 规则 的 快速 
分 类 是 必要 的 。 因 此 ， 如 何 快速 地 分 类 分 组 成 为 组 件 的 主要 问题 。 

在 IntServ 中 ， 分 类 组 件 根据 分 组 头 部 中 5 个 字段 的 值 来 标识 分 组 属于 哪个 流 。 在 DiffServ 中 ， 它 
在 网 络 边缘 对 多 个 字段 执行 范围 匹配 ,在 网 络 核心 对 单个 分 段 执行 简单 的 匹配 将 分 组 分 成 关 而 不 


7.1.5 监管 

总 会 有 某 些 车 辆 超过 道路 上 的 限 速 ， 这 将 给 其 他 车 辆 的 司机 带 来 危险 。 类 似 的 情况 也 会 发 生 在 网 
络 上 ， 因 此 我 们 需要 一 个 的 监管 组 件 监控 流量 。 如 果 流 量 源 的 到 达 速率 超过 其 分 配 的 速率 ， 监 管 组 件 
就 需要 标记 、 丢 弃 ， 或 延迟 某 些 分 组 。 然 而 ， 在 大 多 数 情况 下 ， 监 管 阔 值 并 非 是 一 个 准确 的 值 ， 而 且 
阔 值 的 轻微 变化 是 可 以 容忍 的 。 因 此 ， 源 流量 通常 由 流量 模型 来 描述 ， 并 且 监 管 要 根据 流量 模型 来 执 
行 。 最 流行 的 监管 机 制 称 为 令 牌 桶 ， 它 允许 将 监管 流量 限制 为 平均 速率 ,但 是 也 允许 在 突 发 时 间 段 以 
最 大 速率 发 送 。 


7.1.6 调度 
调度 是 支持 QoS 网络 的 重要 组 件 。 甚 总 目标 是 根据 预定 义 的 规则 或 比率 在 不 同 的 流 或 类 之 间 执 行 
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资源 共享 ， 已 经 提出 了 各 种 调度 算法 以 实现 特定 的 目的 。 有 些 方 法 简单 ， 有 些 方法 复杂 和 巧妙 ， 这 足 
以 提供 公平 共享 的 准确 保证 。 

如 图 7-3 所 示 ， 调度 器 应 该 提供 两 个 外 部 函数 ， 和 人 队 (enqueue) 和 出 队 (dequeue)， 分 别 用 于 接 
收 新 到 达 的 分 组 和 决定 要 转发 的 下 一 个 分 组 。 那 么 应 该 有 一 个 内 部 算法 在 “调度 黑 包 管 道 ” 中 调度 分 
组 ， 这 可 以 分 成 : 1) 队列 内 的 缓冲 区 管理 ; 2) 在 多 个 队列 之 间 的 资源 共享 .在 某 个 队列 内 的 缓冲 区 
管理 又 称 为 排队 规则 (dueuing discipline) ， 我 们 将 在 TC 的 开源 实现 中 看 到 









到 达 的 分 组 离开 的 分 组 








A 


单个 FIFO 队 列 





图 7-3 调度 的 概念 和 可 能 的 体系 结构 


开源 实现 7.1: Linux 中 的 流量 控制 元 素 

概述 

Linux 内 核 提供 各 种 流量 控制 函数 。 人们 可 以 使 用 这 些 函 数 来 构建 IntServ 路 由 器 、DiffServ 路 由 器 
或 者 任何 其 他 QoS 感知 的 路 由 器 。TC 和 其 他 路 由 器 函数 之 间 的 关系 在 图 7-4 中 给 这 里 用 TC 替代 
在 原来 Linux 内 核 中 Output Queuing 的 作用 。 它 由 以 下 3 种 类 型 的 元 素 组 成 : 














。 过 滤器 
。 排队 规则 (aqisc) 
。 类 
ee 
1P 输出 排队 0 
转发 
流量 控制 
排队 规则 
要 排队 规则 
排队 规则 
图 7-4 Linux 中 TC 元 素 的 简单 组 合 
框图 


在 图 7-4 中 ， 过 滤器 负责 根据 某 些 特定 的 规则 或 分 组 头 部 中 的 字段 来 对 分 组 进行 分 类 ， 它们 的 源 
代码 文件 命名 为 cls_prefix， 存 放 在 目录 /usr/src/1inux/sched/ 中 。 例如 ,文件 cls rsvp.c 
实现 IntServ 路 由 器 中 需要 的 流标 志 。 
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排队 规则 支持 两 种 基本 函数 ， 入 队 (enqueue) 和 出 (dequeue ) 本 一 中 二 狼 尖 定 要 么 丢弃 分 组 
要 么 排队 分 组 ， 0 分 组 传输 的 次 序 地 es 某 些 排队 分 组 的 发 送 最 简单 的 排队 
规则 是 FIFO， 它 将 到 达 的 分 组 排队 直到 队列 满 为 止 并 将 队列 中 的 分 ao 


但 是 ， 各 要 拓 队 焕 则 套间 加 证 大 例如 ， 在 sch_cbd. c 中 实现 的 CBQ， 它 将 分 组 分 成 不 同 的 类 ， 

类 受 限于 它 自 己 的 排队 规则 ， 如 FIFO 或 RED,， 排队 规则 和 类 的 源 代码 也 位 Sands mda 
sched/ 中 ， 但 是 它们 的 文件 名 是 以 sch 开始 的 。 至 于 分 组 排队 结构 的 底层 ，sk buff 用 于 链接 分 组 ， 
其 结构 已 经 在 1.5 节 中 讲述 过 


算法 实现 
图 7-4 中 的 下 半 部 分 显示 了 一 个 上 述 控 制 元 素 的 可 能 组 合 。 可 能 有 各 种 组 合 ， 可 能 由 多 个 类 和 多 
个 过 滤器 组 成 的 排队 规则 可 能 将 分 组 分 到 同一 类 中 。TC 用 户 可 以 在 数据 平面 通过 Perl 脚本 根据 需要 设 







计 通 信 流 量 结构 

图 7-$ 进一步 演示 了 TC 中 更 加 简单 的 流程 图 ， 这 里 仅 部 署 了 一 个 qdisc。 当 来 自 上 层 的 分 组 到 达 
TC 时 ， 通 过 qdisc_ enqueue () 将 分 组 插入 对 应 的 队列 。 然 后， 刚好 在 发 送 分 组 时 ， 定 时 器 将 触发 
qdisk wakeup () 分 别 通过 qdisk dequeue () 和 hard _ start xmit () 选 择 和 发 送 分 组 ,一 旦 发 送 分 
组 后 ，net bh () 可 能 也 会 请 求 qdisk run queues () 激 活 下 一 个 分 组 的 传输 








dev_queue xmit 

















-~ gdise_ enqueue | 定时 器 | 


和 


[一 =| qdisc_ wakeup 
qdise_restart 


ddisc_dequeue 
qdisc_run_queues 
hard_start_xmit 


ET 


图 7-5 ”gdisc 元 素 的 流程 图 


































练习 

你 是 否 能 够 通过 重新 配置 Linux 内 核 来 安装 TC 模块 ， 并 思考 如 何 启 用 这 些 模块 ? 在 本 章 的 开源 实 
现 中 ， 我 们 将 详 述 几 个 与 课本 相关 的 TC 元素。 因此， 这 是 为 练习 做 准备 的 最 佳 时 间 ， 你 可 以 在 本 章 
“进一步 阅读 ”中 找到 有 用 的 参考 文献 


7.2 ”QoS 体系 结构 


这 里 我 们 将 介绍 黄种 于 20 世纪 90 年 代 提 出 的 QoS 体系 结构 ， 并 为 如 何 将 互联 网 从 尽力 而 为 转变 
成 支持 QoS 的 网 络 提 供 指 导 。 集 成 服务 足 一 种 完整 的 体系 结构 ， 能 够 满足 由 严格 网 络 应 用 产生 的 任何 
QoS 页 求 它 能 够 为 这 些 应 用 提 供 一 种 带 有 带宽 预 留 和 保证 最 差 情 况 下 有 禾 迟 极限 的 虚拟 路 径 。 但 是 ， 
这 是 一 种 昂贵 的 解决 方案 。 因 此 提出 了 了 一 种 简单 的 和 更 加 实用 的 体系 结构 : 区 分 服务 体系 结构 。 顾 名 
思 义 ，DiffServ 的 日 的 是 为 不 同等 级 的 用 户 提供 不 同 的 服务 ， 而 不 是 提供 带宽 和 迁 以 保证 的 服务 。 遗 城 
的 是 ， 即 使 DiffServ 比 IntServ 更 实用 ， 但 也 没有 在 全 球 下 联网 上 得 以 广泛 部 署 。 然而， 许多 服务 提供 
商 的 确 提供 优先 级 服务 给 某 些 应 用 ( 如 VolP 应 用 )， 通过 与 其 客户 签订 的 服务 等 级 协议 (SLA ) 。 


7.2.1 集成 服务 
本 主将 描述 IntServ 的 一 般 操 作 过 程 。 我们 首先 介绍 应 用 能 够 进入 IntServ 网 络 的 三 种 服务 类 型 ， 然 
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后 我 们 从 应 用 程序 的 角度 讨论 预 留 请 求 ， 即 信和 令 协 议 。 人 然后 我 们 介绍 IntServ 路 由 带 如 何 处 理 和 满足 预 
留 请 求 
服务 类 型 
除了 当前 互联 网 为 流 提 供 的 尽力 而 为 服务 外 ， 在 IntServ 规范 中 还 定义 了 两 个 额外 的 服务 类 型 : 保 
证 服务 和 控制 负载 服务 ， 如 表 7-1 所 示 。 
表 7-1 IntServ 中 提供 的 服务 类 型 











服务 类 型 有 保证 的 控制 负载 ”尽力 而 为 
-保证 带宽 
与 供 OoS 有 7 旺 序 的 轻 负载 网 台 a 
提供 QoS ee 模拟 应 用 程序 的 轻 负载 网 络 无 
应 用 例子 VolP 和 视频 会 议 视频 流 | 网 站 浏览 
RFC REG 2212 RFC 2211 | 无 











一 旦 某 个 应 用 订购 了 保证 服务 ， 它 就 可 以 将 流量 发 到 具有 保证 可 用 带宽 和 端 到 端 最 差 情况 下 有 延 
以 限 制 的 路 径 上 。 任何 交互 式 实时 应 用 ( 如 VoIP 和 视频 会 议 ) 可 以 订购 这 种 服务 ， 因 为 任何 额外 的 分 
组 延迟 都 可 以 严重 地 影响 用 户 的 感受 并 且 不 被 用 户 所 咏 受 ， 

在 IntServ 中 的 控制 负载 服务 向 订购 流 提供 路 径 ， 这 里 分 组 传输 很 可 能 通过 低 利 用 率 链 路 。 也 就 是 
说 ， 当 订购 服务 时 ， 流 需要 的 质量 在 大 多 数 时 候 得 到 满足 。 尽 管控 制 负载 服务 没有 有 保证 的 服务 好 ， 
但 它 更 加 便宜 ， 适 用 于 某 些 非 实 时 的 应 用 。 例 如 ， 在 线 电 影 可 以 定购 控制 负载 服务 来 保证 大 多 数 分 组 
能 够 在 预期 的 时 间 收 到 ， 特 别 是 当 由 尽力 而 为 服务 提供 的 带宽 远 低 于 编 解码 器 速度 时 也 是 如 此 。 那么 ， 
在 播放 视频 流 之 前 ， 播 放 程序 可 以 缓存 某 段 时 间 的 媒体 数据 来 掩盖 在 流传 输 期 间 由 短期 拥塞 造 成 的 质 
量 降级 。 由 于 控制 负载 服务 的 用 户 可 以 容忍 短期 的 质量 降级 ， 所 以 网 络 资源 就 可 以 由 更 多 的 用 户 来 共 
享 ， 因 此 控制 负载 服务 比 保证 服务 更 便宜 

资源 预 留 请 求 的 历程 

一 个 在 线 电影 播放 融 的 应 用 程序 决定 定购 服务 类 型 以 及 它 的 流 需要 多 少 带 宽 和 多 少 延迟 之 后 ， 它 
就 需要 发 送 一 个 带 有 定购 信息 和 源流 量 描述 的 QoS 请 求 以 便 在 IntServ 域 中 预 留 资 源 。 请 求 将 被 最 近 的 
IntServ 路 由 器 接收 ， 如 图 7-6 所 示 。 路 由 顺 将 根 机 其 状态 决定 是 否 接受 请 求 ， 如 果 它 接受 请 求 ， 那 么 
它 就 会 将 请 求 转 发 到 下 一 台 路 由 器 。 路 径 上 的 所 有 路 由 融 都 接受 请 求 后 ， 资 源 预 留 处 理 就 完成 了 ， 应 
用 程序 就 可 以 以 有 保证 的 QoS 开始 接收 分 组 了 。RSVP 就 是 mtServ 中 用 于 这 种 预 留 通 信 的 协议 。 





图 7-6 从 应 用 程序 的 角度 看 RSVP 处 理 


JIntSery 路 由 器 的 请 求 处 理 

一 旦 接收 到 RSVP 请 求 ，IntServ 路 由 器 就 将 它 传递 给 信 令 处 理 组 件 对 应 于 图 7-1 所 示 的 信 令 协 
议 组 件 。 根 据 它 与 许可 控制 组 件 协商 的 结果 ， 路 由 器 将 更 新 信 令 分 组 并 将 它 转 发 给 下 一 个 路 由 器 。 也 
加 是 说 ， 人 和 信念 处 理 组 件 仪 充 当 一 个 转录 顺 (transcriber) 来 转录 由 许可 控制 组 件 所 做 的 决策 。 实 际 上 ， 
许可 控制 是 负责 输出 链 路 资源 管理 的 实际 组 件 。 许 可 控制 的 功能 可 分 为 两 个 部 分 ， 一 部 分 用 来 采集 和 
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维护 当前 使 用 的 输出 链 路 ， 另 一 部 分 用 来 决定 余下 的 资源 是 否 足 以 满足 新 请 求 的 需要 。 

除了 前 面 提 到 的 两 个 组 件 外 ， 在 IntServ 路 由 器 控制 平面 中 的 另外 一 个 组 件 是 Qos 路 由 。 因 为 Int- 
Serv 采用 许可 控制 管理 带宽 分 配 ， 所 以 这 里 就 不 强调 QoS 路 由 组 件 。 但 是 ， 它 可 以 用 于 寻找 提供 所 雷 
要 的 QoS 保证 的 路 径 。 也 就 是 说 ， 存 在 QoS 路 由 ， 尽 管 是 可 选 的 ， 这 有 助 于 提高 沿 着 找到 的 路 径 上 的 
资源 预 留 的 成 功 机 会 。 

在 IntServ 路 由 器 中 的 请 求 增强 

成 功 创建 路 径 之 后 ， 就 可 以 在 它 王 面 传 得 数据 分 组 了 。 路 径 王 的 路 由 需 应 该 保证 应 用 程序 的 分 组 
处 理 方式 符合 它们 所 订购 的 服务 ， 这 种 许 谤 由 路 由 送 数 据 平面 中 的 三 个 基本 组 件 执行 : 流标 识 符 或 分 
类 器 、 监 管 器 和 调度 器 ， 如 图 7-7 所 示 。 对 于 数据 分 组 ， 路 由 器 的 入 口 在 流标 识 符 组 件 将 根据 分 组 头 
部 的 5 个 字段 ( 源 呈 地 址 、 目 的 地 址 、 源 端 日 号 、 目 的 端口 号 和 协议 标识 符 ) 标识 分 组 是 否 属 于 
某 个 预 留 的 流 。 将 那些 属于 特定 预 留 流 的 分 组 插入 到 对 应 的 流 队 列 中 。 基 本 上 ， 在 IntServ 体系 结构 
中 ， 每 个 预 留 的 流 都 有 一 个 独立 的 队列 。 将 不 属于 任何 预 留 流 的 分 组 归 类 到 尽力 而 为 的 FIFO 队列 。 值 
得 注意 的 是 ， 震 要 为 尽力 而 为 流量 预 留 部 分 资源 以 避免 饥 俄 现象 的 发 生 。 
| 源 端 口 。 | 目的 端 D | | 








































| QR 力 而 为 “| 
图 7-7 在 IntServ 路 由 器 中 的 数据 平面 
当 分 组 进入 到 对 应 的 流 队 列 后 ， 人 处 理 分 组 的 下 一 个 组 件 是 监管 器 。 它 监控 流 的 到 达 分 组 以 便 确 定 
流量 是 否 符 合 其 资源 预 留 请 求 中 声称 的 行为 。 这 些 “ 和 轮廓 描述 以 外 ”的 分 组 可 能 会 被 天 弃 或 延 述 直到 
流量 符合 声称 的 行为 。 接 下 来 ， 调度 天 在 被 监管 的 流 队 列 中 从 排 在 前 边 的 分 组 中 选择 出 一 个 分 组 。 将 
调度 器 选择 的 分 组 发 送 到 输出 链 路 上 ， 在 大 多 数 情况 下 ， 输 出 链 路 不 再 有 排队 的 分 组 ， 因 为 输出 速率 
关 须 小 于 或 等 于 物理 链 路 速率 。 
调度 器 的 角色 对 于 IntSer 来 讲 很 重要 ， 央 为 它 是 提供 具有 流 隔 离 特 点 和 咒 有 闫 格 端 到 端 延迟 极限 
的 关键 。 它 的 目的 是 减少 最 差 情况 下 流 的 延迟 并 在 所 有 预 留 流 之 间 提 供 公平 的 处 理 。 值 得 注意 的 是 ， 
公平 不 等 于 均等 ， 更 多 解释 将 在 7.3.4 节 中 给 出 。 


7.2.2 区 分 服务 

尽管 IntServ 提供 一 种 精确 的 QoS， 但 IntServ 体系 结构 对 ISP 的 部 署 是 不 可 扩展 的 。 此 外 ， 它 的 执 
行 机 制 可 能 消耗 太 多 的 计算 资源 ， 特 别 是 对 于 需要 处 理 很 多 流 的 核心 路 由 器 更 是 如 此 。 它 高 速 复杂 的 
设计 将 会 造成 网 络 资源 较 差 的 利用 率 和 高 的 部 团 费 用。 显然 ， 互 联网 需要 一 种 简单 的 、 可 扩展 的 和 可 
管理 的 解决 方案 。 区 分 服务 就 是 为 了 这 种 目标 而 设计 的 。 图 7-8 显示 了 DiffServ 的 基本 元 素 树 。 第 一 层 
显示 了 DiffServ 必需 的 功能 ， 而 接 下 来 的 各 层 列 出 了 取得 这 些 功能 的 特定 协议 或 组 件 。 

通用 模型 

DiffServ 网 络 由 一 个 或 多 个 DiffServ 域 组 成 ， 而 DiffServ 域 由 多 台 路 由 器 组 成 。 在 DiffSery 域 中 有 两 
种 类 型 路 由 器 ， 如 图 7-9 所 示 。 在 域 边界 的 路 由 器 称 为 边界 路 由 器 ， 不 管 它 是 入 口 (ingress) 还 是 出 口 
(egress) 路 由 固 ， 而 在 内 部 的 路 由 器 称 为 核心 路 由 器 。 人 入口 路 由 器 是 域 的 人 口 。 它 在 进一步 转交 给 核 
心路 由 器 之 前 分 两 步 处理 分 组 。 第 一 步 ， 根 据 预 定义 的 监管 标识 和 标记 分 组 。 分 组 的 标记 影响 域 中 分 
组 的 转发 处 理 ,， 第 二 步 ， 根 据 在 开始 服务 之 前 客户 与 提供 商 之 间 协 商 的 流量 轮廓 描述 ， 监 管 和 整形 分 
组 。 第 二 步 保 证 注入 到 域 中 的 流量 是 在 域 的 服务 能 力 之 内 ， 因 为 域内 就 不 再 进行 控制 了 。 核 心路 由 内 
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流量 调节 i . J” . Pt-to-Pt RSVP 
协定 人 
服务 有 保证 的 MPLS 
te 和 LDAP 
配 叶 转发 
分 类 尽力 而 为 ATM COPS 


标记 器 





调度 器 
图 7-8 DiffSery 的 基本 元 素 树 
的 任务 就 是 按照 分 组 上 的 标记 以 特殊 行为 转发 分 组 。 在 外 出 路 由 器 上 上， 可 以 按照 当前 域 与 下 一 个 域 之 
问 协 商 的 服务 协议 进行 分 组 重 标记 和 流量 重 整 形 






监管 ， 标 记 ， | 
整形 ， 天 齐 分 组 > 








(CD) 核心 路 由 器 
CD 边界 路 由 器 


区 分 服务 域 
图 7-9 DiffServ 域 的 体系 结构 


DS 字段 
边界 DiffSery 路 由 器 标记 进入 DiffServ 域 的 分 组 ， 分 组 上 的 标记 告诉 核心 路 由 器 如 何 处 理 分 组 。 央 
为 DiffServ 直接 构建 在 中 网 络 之 上 上 而 没有 引入 额外 的 层 ， 所 以 标记 必须 保存 在 IP 头 部 中 ， 因此 DiffServ 
重新 声明 了 TIPv4 头 部 中 的 8 位 服务 类 型 (TOS) 字段 ， 用 来 指示 转发 行为 。 符 代 的 字段 称 为 DiffServ 
(DS) 字段 ， 并 上 且 只 有 6 位 用 做 DS 代码 点 (DSCP)， 用 来 编 公 每 跳 行为 (PHB)， 如 图 7-10 所 示 .。 6 
位 DSCP 字段 可 以 表示 64 个 不 同 的 值 ， 这 些 值 分 成 如 表 7-2 所 示 的 3 个 部 分 定义 在 第 一 部 分 中 的 代 
码 点 对 应 于 主要 的 标准 PHB。 另外 两 部 分 中 的 代码 点 分 别 保留 用 于 试验 和 局 部 使 用 
没有 使 用 














12AE PHBs 
2 = 行为 IEF PHB 

尽力 而 为 PHB 
8 类 选择 器 





图 7-10 将 IPv4 头 部 中 的 TOS 字段 重新 定义 为 DS 字段 
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按 每 跳 转发 行为 表 7-2 代码 点 的 分 配 空间 

这 里 我 们 介绍 4 组 转发 行为 及 其 对 应 的 在 标准 
中 定义 的 推荐 代码 点 。 前 两 组 ， 默 认 PHB 和 类 
选择 器 PHB， 提 供 有 限 的 向 后 兼容 ， 因 为 DS 字段 
是 从 原来 的 IP TOS 字段 重新 定义 而 来 的 。 其 他 
两 个 PHB 组 ， 保 证 转发 (AF) (PHB) 和 加 速 转发 _3 
(EF) PHB 由 IETF 标准 化 ， 用 以 提供 DiffServ。 

默认 PHB 组 

对 于 PP 网 络 中 的 大 多 数 分 组 ，TOS 字段 没有 用 ， 其 值 设置 为 0 为 了 让 这 些 无 DiffServ 感知 的 分 组 
通过 DiffServ 网 络 ，DiffServ 定义 默认 的 DSCP 值 为 000000， 即 等 于 大 多 数 无 DiffServ 感知 分 组 中 TOS 字 
段 的 值 ， 对 于 这 些 分 组 ，DiffSer 将 它们 搬入 到 尽力 而 为 队列 中 并 为 它们 预 留 最 小 的 带宽 。 

类 选择 器 PHB 组 

尽管 在 大 多 数 情况 下 没有 使 用 TOS 字段 ， 但 基 些 厂商 实际 上 使 用 TOS 的 前 3 个 位 来 标识 某 些 IP 功 
能 ， 为 了 让 这 些 IP 功能 与 DiffServ 实现 能 够 共存 ， 将 一 个 包含 xxx000 的 DSCP 字段 映射 到 以 不 同 优 先 
级 转发 分 组 的 一 组 PHB 上 上。 带 有 和 较 大 DSCP 的 分 组 比 带 有 较 小 DSCP 值 的 分 组 具有 更 高 优先 级 转发 

AF PHB 组 

AF 组 的 PHB 保证 转发 流量 源 中 的 每 个 分 组 ， 如 果 这 些 到 达 的 分 组 与 其 源 的 流量 轮廓 描述 保持 一 致 ， 
轮廓 描述 称 为 流量 条 件 协定 (TCA) 。 然 后 ， 对 于 超过 其 TCA 的 分 组 ， 如 果 可 能 ，AF PHB 就 会 转发 。 

在 AF PHB 组 中 有 4 种 转发 类 型 ， 每 类 分 配 了 一 定量 的 带宽 和 缓冲 区 空间 。 对 于 每 个 类 ， 流 量 分 
成 二 个 等 级 的 丢弃 优先 级 ， 也 就 是 说 , 在 AF 组 中 总 共有 12 个 单独 的 PHB。 一 旦 一 个 类 的 缓冲 区 接近 
满 ， 也 就 意味 着 到 达 的 流量 总 量 超过 了 类 分 配 的 带宽 ， 具 有 高 丢弃 优先 级 的 分 组 比 具 有 低 优先 级 的 分 
组 以 更 高 的 概率 天 充 。 

为 了 避免 类 内 的 拥 寨 ， 需 要 对 到 达 类 的 流量 总 量 加 以 控制 。 而 且 ， 由 于 一 个 分 组 的 类 在 同一 Diff- 
Serv 域内 不 变 ， 所 以 边界 路 由 器 需要 许可 、 整 形 ， 其 至 丢弃 分 组 以 保持 DiffServ 域 不 会 过 载 。 正 如 前 面 
提 到 过 的 ，DiffServ 依赖 于 在 边界 路 由 带 上 的 供给 和 监控 来 提供 QoS。 

事实 上-， 为 了 检测 是 否 发 生 拥 塞 是 一 个 有 趣 的 研究 课题 。 有 很 多 关于 缓冲 区 管理 的 算法 用 于 提前 
检测 拥 赛 和 降低 负面 效应 ， 例 如 ，1993 年 S. Floyd 和 V. Jacobson 建议 的 随机 早期 检测 (RED) 。 我 们 将 
划 在 7. 3. 5 节 学 习 这 些 缓冲 区 管理 算法 。 

EF PHB 组 

EF PHB 用 来 提供 类 似 于 传统 点 到 点 租用 线路 服务 的 性 能 ， 以 低 的 丢失 率 、 低 的 延 信 和 低 的 抖动 转 
发 分 组 。 为 了 提供 三 种 特性 ，DiffServ 中 的 核心 路 由 器 必须 能 够 在 任何 时 候 预 留 足 够 量 的 人 带宽， 以 便 按 
昭 在 源流 量 轮廓 描述 中 指定 的 速率 传输 EF 流量 。 

在 核心 路 由 融 中 ，EF 流量 会 抢占 优先 于 其 他 流量 类 型 以 便 获 得 对 三 个 “ 低 ” 特 性 的 保证 。 在 核心 
路 由 器 中 ， 实 现 这 种 保证 的 最 简单 方法 是 将 不 同类 型 的 流量 分 类 到 单独 的 队列 中 ， 然 后 总 是 从 EF 流量 
队列 中 转发 分 组 直到 队列 变 空 为 止 。 但 是 ， 为 了 避免 其 他 流量 饥饿 或 者 以 突 发 的 方式 转发 EF 流量 ， 震 
要 严格 约束 将 EF 流量 发 送 到 网 络 的 速度 。 通常 ， 通 过 令 牌 桶 实现 的 整形 器 将 部 署 在 边界 路 由 器 上 以 满 
足 这 种 约束 。 那么 ， 所 有 轮廓 描述 以 外 的 不 符合 流量 将 使 用 默认 PHB 转发 或 者 简单 地 在 边界 路 由 关上 上 
丢弃 。 

与 AF PHB 相 比 ，EF PHB 具有 更 高 的 服务 质量 和 更 低 的 突 发 容忍 性 。 显 然 ，EF PHB 是 恒定 位 速 
率 和 高 质量 需求 流量 的 最 佳 选择 。 男 一 方面 ，AF PHB 更 适用 于 突 发 但 能 容忍 分 组 丢失 的 流量 。 它 们 的 
相对 特点 在 表 7-3 中 列 出 

在 DiffServ 域 中 分 组 的 生命 历程 

在 DiffServ 域 中 分 组 的 历程 可 以 分 成 三 个 阶段 : 入口、 内 部 和 出 日 。 第 一 个 和 第 三 个 阶段 是 由 边界 
路 由 器 上 处理 的 ， 而 第 二 个 阶段 是 由 核心 路 由 器 处 理 的 。 这 里 通过 描述 在 对 应 路 由 器 上 的 操作 来 详 述 


每 个 阶段 ， 


序号 | 代码 点 空间 分 配 的 监管 
xxxxx0 标准 动作 

xxxxl 1 试验 和 局 部 使 用 

与 上述 类 似 但 是 受 标 准 动作 的 影响 
















XXXXxO1 






































370 有 7 草 
表 7-3 AF PHB 和 EF PHB 及 其 相对 特点 
PHB 组 AF (保证 转发 ) EF (快速 转发 ) 尽力 而 为 
昼 交 Olympic 服务 (一 -个 例子 ) 有 4 个 延 述 优先 级 类 ， 得 额外 付费 /虚拟 租用 线路 天 
个 具有 3 个 丢弃 优先 级 子 类 服务 
| AF1 AF2 AF3 AF4 
| 
S 低 010000 011000 100000 101000 
在 D9 字 风 中 扒 Ee 1 1001110 000000 
荐 的 DSCP 中 010010 011010 100010 101010 
高 010100 011100 100100 101100 
| 


流量 控制 静态 SLA 监管 、 分 类 、 标 记 、RIOAWRED 调度 动态 SLA 监管 、 分 类 、 FIFO 调度 
驼 星 控 HRAES OLA mB 、 ss、 人 你 纺 、 1 鸯 反 棕 沪 、 优先 级 /WFQ 调度 可 这 











不 一 致 性 的 流量 重新 标记 为 尽力 而 为 丢弃 转发 





进入 阶段 

如 图 7-11 所 示 ， 在 进入 阶段 ， 每 个 分 组 将 经 过 3 个 模块 : 流量 分 类 、 流 量 调整 和 流量 转发 。 在 第 
一 个 模块 中 ， 分 类 带 根 据 预 定义 的 策略 标识 到 达 的 流量 ， 并 告诉 组 件 应 该 采用 哪 种 流量 描述 轮廓 来 管 
理 流量 的 行为 。 然 后 将 已 分 类 的 分 组 传递 到 第 二 个 模块 ， 进 行 流量 调整 。 

















图 7-11 在 边界 路 由 堪 中 分 组 的 进入 阶段 

在 第 二 个 模块 中 ， 控 照 流量 描述 轮廓 中 的 定义 ， 计量 融 测 量 流量 并 将 分 组 分 类 为 描述 轮廓 之 内 也 
吕 以 分 类 为 描述 轮廓 之 外 。 对 于 描述 轮廓 之 内 的 分 组 ， 标 记 器 将 给 予 它 们 合适 的 代码 点 以 便 让 它们 能 
够 通过 域 。 对 于 描述 轮廓 之 外 的 分 组 ， 它 们 可 能 丢弃 也 可 能 标记 为 对 应 于 具有 高 丢弃 概率 转发 行为 的 
代码 点 。 男 外 ， 它 们 也 可 以 只 是 以 描述 轮廓 之 内 的 分 组 传 给 整形 器 。 但是， 与 穿 过 整形 器 几乎 没有 任 
何 延迟 的 摘 述 轮廓 之 内 的 分 组 不 同 的 是 ， 摘 述 轮廓 之 外 的 分 组 将 被 延迟 直到 它们 与 其 流量 描述 轮廓 一 
致 为 止 。 

在 流量 转发 模块 中 ， 将 已 标记 的 分 组 插入 对 应 类 队列 中 。DSCP 分 类 器 的 实现 比 在 第 一 个 模块 中 提 
到 的 分 组 分 类 咒 简 单 得 多 ,因为 只 是 查看 在 流量 调整 模块 标记 过 的 分 组 的 DS 字段 ， 然 后 青 分 派 到 对 应 
的 类 队列 中 。 同 时 ， 类 调度 器 以 特定 的 转发 速率 从 每 类 队列 中 转发 分 组 ， 这 是 按照 许可 流量 的 容量 配 
置 的 

内 部 阶段 

与 具有 多 个 处 理 模块 的 进入 阶段 不 同 ， 内 部 阶段 只 有 一 个 模块 ， 如 图 7-12 所 示 。 内 部 阶段 的 简单 
体系 结构 减少 了 核心 路 由 器 的 实现 成 本 并 提高 了 转发 速度 。 核 心路 由 器 仅 负责 根据 分 组 的 DSCP 触发 
每 跳 行为 ， 这 与 外 出 阶段 的 第 3 个 模块 的 操作 相 类 似 


” 互 恬 网 服务 质 澡 37] 




















图 7-12 在 核心 路 由 带 中 分 组 的 内 部 阶段 


外 出 路 由 器 

与 负责 DS 域 正常 操作 的 进入 路 由 带 相 比 ， 外 出 路 由 带 仅 需要 收集 有 关 离 开 域 分 组 的 统计 值 。 统 计 
值 可 能 包括 实际 的 在 吐 量 和 当 分 组 通过 DS 域 时 用 户 察 觉 到 的 延迟 。 这 些 统计 值 在 验证 协商 等 级 的 QoS 
是 否 得 到 满足 时 非常 有 用 

与 IntServ 的 比较 

与 IntServ 相 比 ，DiffServ 体系 结构 的 实现 更 简单 但 是 更 加 粗糙 。 首 先 ，Diffser 不 能 提供 由 IntServ 
是 供 的 按 需 资源 预 留 。 在 DiffServ 下 ， 用 户 需 要 与 服务 提供 商 签订 合同 ， 静态 或 动态 地 定义 要 注入 到 网 
络 多 少 流量 或 者 到 底 震 要 什么 类 型 的 QoS。 然 后 ， 根 据 合同 ， 服 务 提供 商 就 可 以 构建 一 个 带 有 足够 资 
源 满足 用 户 需 求 的 网 络 。 其 次 ，DiffServ 中 的 到 达 流 量 被 分 成 不 同 的 组 ， 又 称 为 转发 类 。 由 于 组 的 数量 
有 限 ， 来 自 多 个 用 户 的 流量 可 能 汇聚 成 一 个 类 ， 一 个 队列 ， 也 就 是 说 ， 用 户 可 以 察觉 的 传输 质量 可 能 
受到 同类 其 他 用 户 的 影响 。 最 后 ， 在 DiffServ 域 的 边界 上 处 理 5 元 组 分 组 分 类 。 也 就 是 说 ， 只 有 边缘 路 
由 天 需要 分 类 和 标记 分 组 ， 核 心路 由 器 以 不 同 的 行为 转发 分 组 就 是 根据 分 组 头 部 中 的 标记 进行 的 。 

表 7-4 显示 了 DiffServ 和 IntServ 体系 结构 之 间 的 主要 不 同 之 处 。DiffServ 的 设计 避免 分 类 并 调度 大 
量 分 组 到 核心 路 由 器 中 的 困难 ， 这 其 实 是 IntServ 的 主要 问题 。 

表 7-4 DiffSery 和 IntSery 之 间 的 不 同 

















比较 项 目 DiffServ IntServ 
可 管理 的 单位 类 流 
路 由 器 能 力 边缘 和 核心 多 合 一 
在 标准 中 定义 转发 行为 服务 类 型 
需要 有 保证 供应 预 色 - 
工作 区 域 域 端 到 端 





行为 原则 : 为 什么 DiffSery 和 IntServ 都 失败 了 

尽管 DiffServ 比 IntServ 更 具 可 扩展 性 ， 但 它 仍 然 没有 得 到 广泛 部 署 。 有 人 会 说 因为 光纤 技术 的 进 
步 导 致 带宽 过 供应 和 高 速 链 路 上 的 投资 已 经 消除 了 利用 复杂 的 QoS 体系 结构 和 机 制 支持 互联 网 支持 
Qos 的 需求 了 。 另外 一 个 争论 在 于 IntServ 和 DiffServ 会 将 无 状态 的 IP 网 络 分 别 变 成 有 状态 的 和 半 有 状 
态 的 。 对 于 IntServ， 所 有 的 路 由 器 将 变 成 有 状态 的 以 便 跟踪 所 有 的 预 留 状 态 。 对 于 DiffServ， 至 少 所 有 
的 边缘 路 由 器 需要 保留 这 些 状态 来 分 类 和 标记 分 组 。 

这 些 当然 违反 了 互联 网 最 初 的 设计 理念 尽管 互 联网 这 种 无 状态 属性 是 否 应 该 保留 仍然 有 争论 
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从 某 种 意义 上 ， 多 协议 标签 交换 (MPLS) 打破 了 本 地 域 中 的 无 状态 性 ， 通 过 允许 有 状态 的 但 更 快 的 交 
换 来 替代 无 状态 的 但 更 慢 的 路 由 。MPLS 成 功 地 扩展 到 了 某 种 程度 ， 但 是 将 MPLS 扩展 到 全 球 互联 网 
上 ， 将 面临 IntServ 和 DiffSery 遇 到 的 同样 问题 然而，QoS 对 是 扩展 到 多 Ta 务 提供 商 的 一 种 端 到 
端 问题 ， 但 MPILS 仅 能 在 一 个 域内 提高 性 能 而 不 用 采取 端 到 端的 解决 方案 


行动 原则 : 无 线 链 路 中 的 QoS 

尽管 QoS 体系 结构 DiffSery 和 IntServ 不 能 部 署 到 互联 网 中 ， 但 是 我 们 可 以 在 最 近 的 无 线 标准 (如 
IEEE 802. 11e 和 802. 16) 中 找到 与 QoS 相关 的 规范 QoS 仍然 在 无 线 网 络 中 获得 关注 ， 因 为 如 今 的 无 
线 网 络 中 没有 为 用 户 提供 足够 的 带宽 .因此 ， 当 这 种 流量 与 其 他 背景 流量 混合 在 一 起 时 ， 就 需要 QoS 
相关 的 机 制 和 算法 来 保证 实时 流量 的 传输 质量 

对 于 无 线 局 域 网 中 的 用 户 ，IEEE 802. lle 定义 了 两 种 访问 模式 ， 增 强 分 布 式 信道 接 入 (EDCA) 
和 混合 协调 功能 控制 eh (HCCA)， 在 MAC 层 满足 QoS 的 要 求 。EDCA 提供 的 高 优先 级 流量 比 
低 优先 级 流量 具有 更 多 的 机 会 发 送 。 FDCA 中 的 前 者 流量 比 后 者 流量 经 历 更 短 的 等 待 时 间 以 及 更 长 的 
时 间 间 隔 发 送 ， Was (TXOP) ， 另 一 方面 ， 与 在 IEER 802. 11 中 的 访问 模式 PCF 一 样 ，HCCA 
是 一 种 基于 轮 询 的 模式 ， 接 入 点 主动 地 安排 站 点 轮 询 的 顺序 和 频率 ， 从 而 确定 每 个 站 点 接收 的 QoS 
别 在 于 ，PCF 中 的 轮 询 站 点 在 一 次 轮 询 问 中 仅 发 送 一 个 分 组 ， 但 HCCA 中 的 站 点 在 一 轮 轮 询 中 

合 定 的 TXoP 可 以 任意 发 送 分 组 ， 因 此，HCCA 对 于 每 个 分 组 发 送 比 PCF 具有 更 低 的 开销 ， 

对 于 WMAN 中 的 用 户 ，IREE 802. 16 引入 了 四 类 服务 : 非 请 求 的 频 宽 分 配 (UGS) 、 实 时 轮 询 服务 
(rtPS) 、 非 实时 轮 询 服务 (nrtPS) 以 及 尽力 而 为 (BE)。UGS 假设 模拟 TIZF1I 链 路 周期 性 地 发 送 固定 
长 度 的 分 组 ， 而 rtPS 和 nrtPS 分 别 为 实时 和 非 实时 可 变 长 度 分 组 保证 最 小 的 吞吐 量 。 与 基于 CSMAZCA 
的 802. 11le 相 比 ，802. 16 使 用 TDMA 来 管理 无 线 媒体 。 在 802. 16 中 基站 (BS) 需要 为 每 个 定购 者 站 

周 度 媒 体 ， 这 就 是 一 种 自然 的 集中 式 控 制 模式 和 一 种 用 于 QoS 部 署 的 方便 体系 结构 。 


7.3 QoS 组 件 的 算法 

给 出 了 支持 QoS 的 IP 网 络 体系 结构 之 后 ， 我 们 就 将 重点 放 在 构建 支持 QoS 网 络 组件 的 技术 [-， 这 
比 体系 结构 具有 更 多 的 研究 问题 。 有 许多 与 这 些 QoS Te 有 关 的 算法 。 首 先 ， 我们 描述 用 于 许可 控制 
和 机 流标 识 的 算法 。 然 后 ， 我 们 介绍 整形 和 监管 机 制 ， 如 令 牌 桶 及 其 变种 。 接 下 来 我们 描述 比 其 他 组 
件 更 加 复杂 的 调度 算法 .最 后 ， 开 们 叶 论 儿科 分组 导 大 机 抽 | 这 可 以 部 里 在 核心 路 由 涡 或 者 当前 互联 
网 路 由 融 上 以 便 减轻 由 于 突 发 流量 引起 的 拥塞 问题 。 挑选 出 TC 的 5 种 开源 实现 说 明 经 典 QoS 相关 算法 
的 实现 


7.3.1 许可 控制 

应 用 程序 向 路 由 带 发 送 QoS 请 求 以 便 建 立 流 后 ， 许 可 控制 组 件 需要 决定 是 否 接受 新 流通 过 路 由 器 。 
新 流 的 许可 是 根据 输出 链 路 的 当前 资源 使 用 情况 以 及 在 请 求 中 描述 的 需求 来 决定 的 。 好 的 许可 控制 应 
该 许可 尽 可 能 多 的 请 求 来 耗 尽 路 由 需 的 资源 ， 同时 保证 所 有 许可 流 的 QoS 请 求 都 能 得 到 满足 。 方 法 可 
以 分 成 两 类 : 基于 统计 的 和 基于 测量 值 的 。 


基于 统计 值 的 控制 

对 于 基于 统计 值 的 许可 控制 ， 流 量 源 应 该 描述 它 的 行为 ， 如 平均 速率 或 峰值 速率 ， 并 且 路 由 器 应 
该 直接 计算 累计 流量 丽 数 来 佑 算 资源 总 的 使 用 情况 同时 决定 是 否 接 收 流 。 但 是 ， 很 难 在 带宽 利用 率 和 
五 失 概率 之 问 折 中 来 定义 累计 流量 两 数 


例如 ， 我 们 可 以 通过 两 个 参数 : 峰值 速率 和 平均 速率 来 描述 流量 源 ， 假 设 它 服从 一 种 开 - 关 (on- 
of) 模型 ， 这 就 意味 着 源 既 可 以 以 峰值 速率 传输 也 可 以 空间 。 邢 么 ， 累积 流量 函数 就 可 以 是 所 有 流 的 
峰值 速率 总 和 。 如 果 增 加 了 新 请 求 要 求 的 峰值 速率 之 后 ， 计 算 结 果 低 于 最 大 约束 ， 就 接收 请 求 ; 否则. 
就 拒绝 。 这 样 的 函数 保证 为 流量 分 配 带 宽 而 不 会 有 分 组 的 天 失 ，, 但 是 会 导致 低 的 带宽 利用 率 。 如 果 我 
们 使 用 平均 速率 的 总 和 作为 累积 流量 图 数 ， 结 果 会 如 何 呢 ? 尽管 链 路 将 具有 更 高 的 利用 率 ， 但 接收 的 
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流 将 经 党 遭受 拥塞 和 分 组 丢失 。 

对 于 这 种 折 中 ，1991 年 引入 了 术语 等 效 容量 ， 经 常用 于 许可 控制 的 文献 中 。 等 效 容量 表示 一 组 复 
用 流量 通过 一 条 (对 遇 到 队列 溢出 时 的 概率 具有 限制 的 ) 链 路 所 需要 的 最 小 的 带宽 。 如 些 一 来 ， 当 给 
定 溢 出 概率 和 流 的 统计 性 质 时 ， 在 需要 的 总 的 许可 流 的 平均 带宽 小 于 等 容量 时 人 们 就 可 以 计算 出 等 效 
容量 并 设计 一 种 机 制 来 允许 新 的 流 同 时 保证 流 遇 到 的 分 组 丢失 也 将 会 低 于 给 定 的 准 值 。 

基于 测量 的 控制 

由 于 很 难 有 一 个 合适 的 累积 流量 函数 ， 所 以 有 些 研 究 人 员 建 议 直 接 测 量 当 前 的 带宽 使 用 情况 。 为 
了 获得 有 代表 性 的 测量 值 并 避免 突 发 值 ， 可 以 利用 指数 加 权 移动 平均 (EWMA) 来 计算 新 的 使 用 估计 
值 (Estimationy ) 。 也 就 是 说 ， 将 新 的 测量 与 上 次 的 估计 值 (Estimation ) 进行 平均 ， 

Estimationy = 《1 一 2) xxEstimationl +w x Measured; 

其 中 w 为 新 测量 值 的 加 权 比 例 。w 越 大 就 会 使 历史 值 过 期 得 更 快 ， 这 就 意味 着 算法 更 快 并 且 资 源 以 更 
高 的 概率 被 过 度 使 用 ,但 是 流 可 能 得 不 到 它们 需要 的 在 其 QoS 需求 中 描述 的 处 理 。 如 果 当 前 佑 计 刚 好 
在 某 些 最 大 约束 之 下 ， 许 可 控制 可 能 接受 一 个 请 求 ， 但 是 很 可 能 在 下 次 估计 会 变 成 高 值 。 那 么 ， 接 收 
可 能 造成 资源 过 载 并 影响 所 有 接收 流 的 处 理 ， 也 包括 新 的 流 。 

另外 一 种 测量 方法 是 时 间 和 窗口。 佑 计 值 是 从 多 个 连续 的 测量 问 隅 得 出 的 ， 计 算 如 下 ， 

FEstimation =f (Ci, C3, C3, ***, C,) 

其 中 ，C; 为 采样 间隔 上 测 品 的 平均 比率 , /为 最 大 函数 。 同 样 ， 当 nn 较 小 时 ， 估计 的 带宽 使 用 率 通 常 更 
低 ， 因 此 有 更 多 的 空间 来 接收 新 的 流 ， 并 因此 可 以 取得 更 高 的 利用 率 。 男 一 方面 ， 当 nn 值 较 大 时 ， 算 
法 在 估计 寓 宽 使 用 率 时 就 变 得 很 保守 ， 从 而 接收 较 少 新 的 流 。 在 大 多 数 情况 下 ， 流 能 够 得 到 更 好 的 处 
理 ， 但 是 是 以 牺牲 资源 利用 率 作 为 代价 。 


开源 实现 7.2: 流量 估计 器 

概述 

TC 提供 了 一 个 简单 的 模块 用 来 估计 当前 传输 速率 ， 以 字 节 和 分 组 为 单位 。 可 以 在 文件 net/ 
core/gen estimator. c 中 找到 该 模块 。 如 前 所 述 ， 测 量 传输 速率 有 两 种 方法 : EWMA 与 时 间 窗 口 。 
由 于 EWMA 比 时 间 窗 口 方式 花费 更 少 的 内 存 并 且 更 容易 实现 ， 所 以 Linux 使 用 EWMA 方式 进行 通信 量 
估算 。 

数据 结构 

用 来 保持 流 测量 结果 的 数据 结构 称 为 gen estimator， 如 下 所 示 ， 


struct gen est imator 


{ 
struct list head list; 
struet gnet istats basice *bstats; 
struct gnet stats. rate est *rate est.; 


spinlock t *stats_ lock; 
int ewma log; 
u64 last bytes,; 
U64 avbps; 
u32 last packets; 
cb avpps; 
struct rcu head e 让 CU 
struct rb node node; 

ps 


由 于 速率 估计 器 能 分 别 以 字 节 和 分 组 为 单位 提供 速率 估计 ， 所 以 可 以 在 估计 器 中 找到 成 对 的 变量 
名 称 ,例如 ，last bytes 和 last packets、avbps 和 avpps， 其 用 法 将 在 后 面 解释 。 事 实 上 ， 甚 
至 子 数 据 结构 rate est 和 bstats 也 是 由 两 个 变量 组 成 的 : 一 个 用 于 以 字 节 估计 ， 另 外 一 个 以 分 组 
来 估计 .rate est 用 于 保存 速率 估计 结果 ， 而 bstats 记录 估计 器 到 目前 为 止 记录 的 计数 的 数据 量 ， 

算法 实现 

流量 估计 器 包括 3 个 主要 函数 。 函 数 gen_new_estimator () 创 建新 的 估计 器 ， 函 数 gen kill 
estimator () 用 于 删除 闲置 的 估计 器 。 一 旦 设 定 的 时 间 到 ，Linnx 内 核 调用 函数 est timer () ， 这 里 
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时 间 间 隔 设置 为 (1 < < interval)， 即 2 ”1 秒 。 在 函数 est timer () 中 ， 发 送 率 的 计算 和 EWMA 
是 通过 图 7-13 中 的 代码 实现 的 。 





: struct gen estimator *e; 


: nbytes = e->bstat->bytes; 
: npackets = e->bstat->packets; 


; brate = (nbytes - e->last bytes)<<(7 - idx); 

; e->last bytes = nbytes; 

: e->avbps += ((s64)brate - e->avbps) >> e->ewma log; 
: e->rate est->bps = (e->avbps+0xF)>>5; 


: rate = (npackets - e->last packets)<<(12 - idx); 

: e->last packets = npackets; 
10: e->avpps += ((long)rate - (long)e->avpps) >> e->ewma log; 
11: e->rate est->pps = (e->avpps+0x1lFF)>>10; 





图 7-13 在 estimator,.c 中 因数 est timer() 的 一 个 代码 分 段 

关于 成 对 的 变量 名 ， 可 以 在 图 7-13 中 找到 成 对 的 代码 (第 4~7 行 与 第 8 ~11 行进 行 对 比 ) 。 流 每 
249 2) 就 执行 一 次 代码 。 每 个 流 具有 其 所 需 的 idx， 在 函数 gen_new_estimator () 中 设置 。 此 外 ， 
为 了 避免 浮 点 运算 ， 在 avbps 和 avpps 中 的 值 与 它们 的 实际 值 相 比分 别 扩 大 了 2 和 2".。 下 一 步 ， 以 
字 节 为 单位 估计 ， 如 第 4 行 中 所 写 , 估计 器 首先 在 2“ 秒 内 获得 计数 的 数据 量 ， 通过 从 e@ - >bstat - 
>bytes 中 减 去 e- >last bytes 

然后 ， 为 了 获得 在 过 去 的 2 “内 的 平均 速率 avbps， 与 前 面 不 同 的 是 要 除 以 249% 2 ， 即 向 右 
移动 (idx-2) 位 。 但 是 为 了 让 5 位 二 进 制 分 数 像 avbps 所 做 的 那样 ， 在 第 4 行 的 运算 就 是 左 移 
(7-idx) 位 ， 即 > >(idx-2) < <5。 然 后 ， 获 得 新 的 平均 率 后 ， 第 6 行 执行 EWMA 运算 获得 平滑 的 
以 字 节 为 单位 的 估计 值 ， 最 后 将 估计 速率 保存 在 rate est - >bps 中 。 同样 ， 我 们 可 以 通过 运行 从 
第 8 ~11 行 就 可 以 获得 以 分 组 为 单位 的 平滑 速率 估计 值 。 

练习 

1. 解释 第 6 行 或 第 10 行 是 如 何 执行 EWMA 运算 的 。 在 EWMA 方程 中 ,历史 参数 w 的 值 为 多 少 ? 

2. 阅读 gen _estimator. c， 找 出 所 有 流量 的 gen estimator 是 如 何 划 分 组 的 。 你 知道 为 什么 参 
数 idx 是 从 2 开始 计数 的 吗 ? 


7. 3.2 流标 识 

在 IntServ 中 ， 因 为 为 每 个 流 都 保留 了 单独 的 资源 ， 所 以 流标 识 或 分 类 是 必要 的 ， 以 决定 一 个 分 组 
属于 哪个 流 。 此 外 ， 需 要 有 一 张 带 有 每 个 流 表 项 的 表 来 存储 流标 识 符 和 QoS 参数 。IntServ 中 的 流标 识 
符 由 分 组 头 部 中 的 5 个 头 部 字段 组 成 ， 这 就 是 源 下 地 址 和 端口 、 目 的 外 地 址 和 端口 以 及 7.2.1 节 中 提 
到 过 的 协议 标识 符 。 标 识 符 的 长 度 是 32+16+32+16+8=104 位 ， 占 13 字 节 。 我 们 需要 一 种 有 效 的 
数据 结构 来 存储 表 和 执行 流量 标识 。 

标识 或 分 类 是 一 种 典型 的 数据 搜索 问题 。 很 多 数据 结构 都 能 够 存储 流 表 ， 但 在 时 间 和 空间 之 间 要 
做 出 权衡 。 简 单 的 数据 结构 是 二 又 树 ， 其 空间 需求 小 ， 但 为 了 标识 分 组 就 需要 多 个 内 存 访问 操作 。 另 
一 个 极端 是 直接 内 存 映射 ， 但 它 不 符合 空间 需求 。 为 了 平衡 时 间 和 空间 的 需求 ， 使 用 散 列 结构 就 是 一 
种 常见 和 流行 的 方法 。 然 而 ， 如 果 我 们 进一步 研究 散 列 结构 ， 我 们 就 可 以 发 现 有 很 多 不 确定 的 原因 会 
影响 在 散 列 表 中 的 流量 标识 ， 例 如 ， 散 列 函 数 和 冲突 解决 方法 。 


开源 实现 7.3: 流标 识 

概述 

有 许多 建议 的 算法 和 数据 结构 实现 流标 识 。 它 们 共同 的 问题 是 如 何在 最 短 的 时 间 内 进行 分 组 分 类 ， 
同时 还 要 使 用 最 小 的 内 存 空间 。 当 你 继续 深入 时 ， 你 会 发 现在 Linux 的 TC 中 使 用 二 层 散 列 结构 。 显 
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然 ， 与 直接 内 存 映射 和 树 结构 相 比 ， 散 列 结构 在 时 间 和 空间 之 间 有 着 更 好 的 权衡 。 可 以 在 net/ 
sched/cls_rsvp.h 中 找到 相关 的 结构 和 代码 。 


数据 结构 
根据 IntServ 的 定义 ， 
的 JP 地 址 、 端 口号、 协议 标识 符 。 其 散 列 结果 指示 分 组 所 属 的 RSVP 会 话 列表 。 基 于 RFC 中 RSVP 的 


定义 ，RSVP 会 话 代 表 了 单 向 流 是 由 目的 卫 地 址 、 目 的 端口 号 、 协 议 标 识 符 组 合 标识 的 。 接 下 来 ， 通 
过 使 用 第 二 层 散 列 与 源 IP 地 址 和 源 端 口号 作为 散 列 键 值 ， 可 以 进一步 确定 分 组 属于 哪个 流 。 
第 二 层 散 列 


Cr [| 


sre_dst () 


16(sre,sre port) 列 表 +1 通 配 符 src 列 表 | 


总 计 256 (dst, protocol id, tunnelid) 列表 | Co 散 列 函数 


5 个 字段 标识 一 个 流 。 二 层 散 列 结 构 如 图 7-14 所 示 。 第 一 层 散 列 是 键入 的 目 


7 




















第 一 层 散 列 


个 太 表 区 娘 


hash dst () 



















图 7-14 在 cLS_RSVP.C 中 二 层 散 列 的 结构 
算法 的 实现 
支持 流标 识 的 主要 函数 是 rsvp classify()， 其 流程 图 如 图 7-15 左 侧 部 分 所 示 。 图 7-15 右 半 部 
的 是 函数 rsvp_change () 的 流程 图 ， 其 中 增加 了 一 个 新 的 流标 识 过 滤器 或 者 修改 现 有 的 流标 识 


分 显示 
过 滤器 。 这 两 个 流程 图 者 是 容易 遵循 的 ， 并 且 是 不 言 自明 的 。 


在 rsvp_session 列 表 N 
中 串 行 搜索 
在 rsvp_filter 列 表 中 N 
串 行 搜索 
莹 


函数 rsvp_classify 的 流程 图 函数 rsvp_change 的 流程 图 
图 7-15 在 cLs_RsVP.c 中 的 两 个 函数 的 流程 图 





TSVP_session 已 经 


存在 吗 ? 

















7. 3.3 令 牌 桶 
今 牌 桶 机 制 可 以 监管 流 的 到 达 率 并 将 速率 限制 在 某 个 范围 内 。 在 DiffSery 中 ， 它 能 部 署 在 边缘 路 由 


融 上 调节 流 的 到 达 速 率 ， 确 保 速 率 符合 与 ISP 合同 中 规定 的 速率 。 如 图 7-16 所 示 ， 该 机 制 由 一 个 令 牌 
桶 和 一 个 令 牌 流 组 成 。 
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图 7-16 漏 桶 的 操作 体系 结构 

流 以 固定 的 速率 r 填充 令 牌 桶 ， 而 桶 可 以 累积 令 牌 到 最 大 量 b4， 这 就 是 桶 深 。 基 本 原理 是 ， 需 要 一 
定数 量 的 令 牌 来 允许 分 组 的 通过 。 让 分 组 通过 所 需要 的 令 牌 数量 等 于 分 组 的 字 节 长 度 。 随 着 分 组 被 多 
许 离 开 队 列 ， 令 牌 开始 从 桶 中 港 漏 ， 直 到 桶 空 为 止 。 然 后 ， 当 桶 空 时 ， 分 组 就 被 阻塞 在 队列 中 ， 而 当 
队列 满 时 ， 新 到 达 的 分 组 甚至 会 被 丢弃 。 另 一 方面 ， 如 果 在 队列 里 没有 分 组 或 令 牌 消耗 率 小 于 r， 令 牌 
束 会 在 桶 里 累积 ， 但 累积 不 超过 桶 的 容量 45。 根据 上 述 的 原则 ， 令 牌 桶 允许 的 最 大 突 发 长 度 等 于 rxi+ 
b， 其 中 4 是 从 分 组 到 达 突 发 开始 所 经 过 的 时 间 。 当 分 组 突 发 到 一 个 带 有 令 牌 桶 完全 装 满 的 空 队 列 时 就 
会 发 生 这 种 情况 。 男 一 方面 ， 最 大 突 发 长 度 也 可 以 表示 为 p x1， 因 为 峰值 速率 受到 pp 的 限制 。 因 此 ， 
我 们 得 到 最 大 突 发 长 度 的 时 间 1= bp 一 7)。 

图 7-17 显示 了 在 24s 内 令 牌 桶 可 能 的 运行 情况 。 假 设 r=1 单位 / 秒 , p =2 单位 / 秒 ,，5 =15 单位 ， 
前 10s 没有 分 组 人 到达 。 也 就 是 说 ， 如 图 7-17a 所 示 ， 在 令 牌 桶 中 累积 10 个 令 牌 。 然 后 ,假设 刚好 在 第 
10s 到 达 了 3 个 分 组 ， 其 长 度 分 别 等 于 10、9、5 个 单位 。 下 一 步 ， 如 图 7-17b 所 示 ， 因 为 峰值 速率 yp = 
2， 所 以 第 一 个 分 组 在 1=15s 释放 ， 即 使 有 10 个 单位 的 令 牌 ,在 1=10s 时 令 牌 桶 中 的 令 牌 足以 释放 分 
组 。 释 放 第 一 个 分 组 后 ， 在 第 10 ~ 15s 期 间 积累 了 5 个 单位 的 令 牌 。 第 15 ~ 19s 期 间 加 入 了 另外 4 个 单 
位 的 令 牌 ， 第 二 个 分 组 可 以 在 19s 时 释放 ， 如 图 7-17ec 所 示 ， 最 后 ， 因 为 在 41=19s 时 桶 中 没有 令 牌 离 
玉 ， 所 以 最 后 一 个 分 组 吉 杰 男 外 等 竺 5s 获得 足够 的 令 牌 后 被 释放 ， 如 图 7-17d 所 示 


3) 广 10s br=15s | 


| Wg i | Lib 
流 队列 LL 和 流 队 列 nis, Ee 二 


流 队列 一。| 





图 7-17 洲 桶 的 操作 例子 


开源 实现 7.4: 令 牌 桶 

概述 

令 牌 桶 机 制 的 思想 很 简单 ， 但 直接 实现 可 能 会 给 内 核 增 加 沉重 的 负担 ， 在 简单 的 实现 中 ， 该 机 制 
应 该 有 一 个 定期 向 桶 中 填充 令 牌 的 令 牌 生成 器 ,此 外 ， 为 了 支持 细 粒 度 的 速率 调节 ， 生 成 器 不 得 不 在 
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短 时 间 内 添加 一 些小 令 牌 ， 而 不 是 长 时 间 的 大 令 牌 ， 显然， 这 样 的 实现 会 成 为 内 核 的 置 禁 ， 尤 其 是 对 
于 许多 流量 类 有 许多 令 牌 桶 时 ， 每 个 生成 器 需要 以 高 频率 添加 小 令 牌 ， 以 便 调 节 高 速率 的 流量 ， 幸运 
的 是 ， 没 有 在 Linux 下 以 这 种 方式 实现 ， 当 检查 到 有 合格 的 分 组 离开 队列 时 ， 才 会 进一步 添加 令 牌 

数据 结构 

令 牌 桶 机 制 广泛 用 于 监管 或 整形 网 络 流量 。 可 以 在 Linux 内 核 的 act police.c 或 sch tbf c 中 
找到 其 实现 ， 下 面 我 们 就 介绍 sch tbf. c 中 的 代码 。 令 牌 桶 实现 使 用 的 参数 和 变量 定义 为 ， 

struct tbf sched data 


{ 


A/* Parimeters */ 


U32 limit; /* Maximal length of backlog: bytes */ 

u32 buffer;/* Token bucket depth/rate: MUST BE >= MTU/B */ 
U32 mtu; 

U32 max size; 


Stract qdise rate table *R tab: 
SLELEE ‘qdige Tate table “Ee ta 


A* Variables */ 
long tokens; /A* Current number of B tokens */ 
long ptokens; /* Curent number of Ptokens */ 
psched time t t c; /* Tine checkpoint */ 
struct timer list wd timer; /* Witchdog timer */ 

} 


在 tbf sched data 中 的 R tab 和 buffer 分 别 对 应 于 图 7-17 所 示 令 牌 桶 的 r 和 b， 而 tokens 
( 令 牌 ) 代表 在 桶 中 已 经 累积 的 令 牌 数量 。 值 得 注意 的 是 ， 在 结构 tbf sched data 中 , 令 牌 桶 大 小 
的 单位 是 微 秒 ， 也 就 是 说 ， 给 定 传输 速率 R tab，buffer 表示 允许 传输 分 组 的 最 大 时 间 。 此外， 
token( 令 牌 ) 表 示 允 许 传 输 分 组 的 实际 时 间 

算法 的 实现 

在 令 牌 桶 的 最 初 设计 中 ， 当 累积 的 令 牌 数 大 于 队列 头 部 的 分 组 大 小 时 ， 允 许 分 组 以 峰值 速率 发 送 ， 
这 里 峰值 速率 通常 等 于 链 路 速率 。 然 而， 由 于 某 些 应 用 程序 可 能 需要 限制 峰值 速率 为 特定 值 ， 所 以 TC 
提供 第 二 套 令 牌 桶 (P tab,mtu,ptokens) 来 支持 这 个 需求 。 这 两 个 令 牌 桶 机 制 用 来 确保 通信 量 满足 
平均 速率 =R ， 而 最 大 突 发 周期 =buffer， 峰 值 速 率 =P ,其 中 R 和 P 分 别 在 结构 R tab 和 P tab 中 
指示 

图 7-18 显示 了 sch tbf. c 中 enqueue () 的 流程 图 . 首先 ， 函 数 检查 分 组 的 长 度 是 否 小 于 最 大 允 
许 的 队列 长 度 ， 然 后 ， 如 果 队 列 还 没 满 ， 就 将 分 组 插入 队列 中 ， 与 函数 enqueue () 相 比 ， 函 数 
dequeue () 更 为 复杂 ， 因 为 它 需 要 维护 令 牌 桶 的 变量 ， 如 图 7-19 所 示 


从 sk_buff 中 获得 
-个 分 组 


skb->len> 
qd->max size 







gdisce _ enqueue (skb,q->qdisc) 


图 7-18 SCE EBE. 总 中 国 数 enqueue () 的 流程 网 
最 后 检查 时 间 上 _c 之 后 ， 函 数 首先 计算 累积 的 令 牌 数 量 并 将 数量 保存 到 toks 中 。 当然， 这 种 累 
积 限 制 为 缓冲 区 的 最 大 值 。 然 后 ， 如 果 峰 值 速率 已 经 给 出 ， 并 且 以 峰值 速率 P 发 送 当 前 分 组 ， 它 就 估 
计 允 许 传输 分 组 的 剩余 时 间 并 将 估计 值 保存 在 ptoks 中 。 同 样 ， 如 果 以 平均 速率 R 发 送 分 组 ， 它 也 估 
计 剩 余 时 间 ， 并 将 它 保 存 回 到 toks 中 ,， 接 下 来 ， 如 果 这 两 种 估计 的 剩余 时 间 大 于 0 时 ， 则 允许 该 分 
组 发 送出 去 ， 和 否则 ， 将 分 组 插 回 其 相应 队列 的 头 部 ,等待 下 次 传输 机 会 
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em _| 。 假定 发 送出 了 pkt ,估计 
一 许可 的 tx 时 间 
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下 重新 将 pkt 插 入 skb 


nb 队列 的 头 部 
允许 分 组 tx 时 间 并 且 
更 新 tbf_sched 值 


经 过 最 后 一 次 询问 
后 计算 累积 的 令 牌 Eoks 
























设置 了 峰 
值 速率 吗 ? 





假定 发 送出 了 pkt 估 计 许 可 tz 
时 间 的 ptoks 





图 7-19 sch tbf.c 中 丽 数 dequeue () 的 流程 图 
练习 
如 数据 结构 开始 部 分 所 述 ， 可 以 找到 另 一 个 令 牌 桶 的 实现 act police. c。 解释 令 牌 桶 如 何 实现 


该 监管 器 


7. 3. 4 ”分 组 调度 

有 许多 类 型 的 调度 算法 以 不 同 风格 分 配 带宽 。 其 中 ， 公 平 排队 类 型 是 最 著名 和 广 为 研 究 的 分 组 调 
芝 。 它 确保 所 有 流 得 到 它们 所 需要 的 带宽 ， 并 保证 在 最 坏 情 况 下 延迟 限制 接收 到 的 分 组 。 此 外 ， 如 果 
流 没 有 用 完 分 配 的 带宽 ， 带 宽 可 以 按 比 例 和 公平 地 在 其 他 繁忙 的 流 之 间 共 享 。 我 们 可 以 进一步 将 这 种 
类 型 的 算法 分 为 两 大 类 : 基于 循环 的 和 基于 排序 的 。 

基于 循环 的 

这 种 类 型 的 算法 是 启发 式 的 。 其 中 最 著名 的 一 个 是 加 权 轮 询 (WRR) 调度 器 。 在 WRR 中 ， 每 个 
活动 流 可 以 在 一 次 循环 中 发 送 特 定数 量 的 分 组 。 一 个 流 发 送 的 分 组 数量 对 应 于 其 权 值 。 例 如 ， 如 果 凑 
个 流 的 权 值 分 别 是 1 和 2， 那 么 两 个 流 在 一 次 循环 中 发 送 的 分 组 的 数量 可 能 分 别 是 100 和 200。WRR 很 
简单 ， 但 它 只 有 在 所 有 分 组 的 长 度 相 等 的 网 络 中 才能 执行 得 很 好 ， 因 为 WRR 不 考虑 调度 的 分 组 的 大 
小 。 一 个 具有 小 权 值 的 流 会 得 到 更 多 发 送 的 数据 ， 如 果 它 的 所 有 分 组 大 小 比 具 有 大 权 值 的 流 中 的 分 组 
大 小 的 大 。 

一 种 改进 版 本 ,赤字 循环 (DRR) ，1996 年 由 M. Shreedhar 和 G. Varghese 为 具有 不 同 大 小 分 组 的 网 
络 (如 互联 网 ) 提出 的 。 不 再 限制 一 次 循环 中 允许 发 送 的 分 组 的 数量 ，DDR 限制 每 个 流 在 一 次 循环 中 
发 送 的 字 节 数 。 如 图 7-20 所 示 ， 为 每 个 流 维 护 一 个 赤字 计数 器 ， 以 便 跟 踪 在 该 循环 中 允许 的 数据 量 
无 论 何 时 轮 到 一 个 流 时 ， 计 数 器 就 会 加 上 上 一 个 与 流 的 权 值 成 比例 的 固定 数量 的 流 。 然 后 ， 分 组 就 可 以 
从 流 队 列 中 发 送出 去 ， 当 计数 器 减少 这 些 分 组 的 大 小 直到 计数 器 中 的 剩余 量 不 够 下 一 个 分 组 的 发 送 为 
止 。 然 后 ,调度 器 将 继续 服务 于 下 一 个 流 。 原 则 上 上， 在 流 计数 器 中 的 剩余 量 将 为 其 下 一 个 流 保留 ， 然 
调 ， 如 果 流 在 队列 中 没有 等 待 发 送 的 分 组 ， 那 么 它 的 计数 器 将 重 置 为 零 ， 直 到 它 的 下 一 个 分 组 到 达 
而 且 ， 流 也 会 暂时 从 循环 列表 中 删除 。 由 于 删除 循环 列表 将 变 得 越 来 越 短 ， 所 以 活动 流 可 以 更 频繁 地 
得 到 服务 ， 并 在 一 个 周期 内 可 以 发 送 更 多 的 分 组 来 共享 不 活动 流 未 使 用 的 带宽 。 

图 7-21 中 的 4 个 部 分 显示 了 图 7-20 在 接 下 来 的 4 次 循环 中 的 变化 。 如 图 7-21a 所 示 ， 第 一 次 循环 
操作 后 ， 从 每 个 流 队 列 中 至 少 释 放 了 一 个 分 组 除了 流 1 外 ， 因 为 流 1 计数 器 中 的 值 不 够 释放 它 的 第 一 
个 分 组 (100 <200) 。 另 一 方面 ， 信 用 100 (300 -200) 留 在 流 3 的 计数 器 中 ， 这 是 为 下 一 次 循环 保留 
的 ， 因 为 第 三 个 流 队 列 非 空 。 接 下 来 ,在 第 二 次 循环 中 ，4 个 计数 器 分 别 增加 100 、200 、300 和 400， 
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其 值 分 别 变 为 200、200 、400 和 400， 现 在 就 足够 释放 在 流 1、2 和 3 中 的 第 一 个 分 组 了 。 这 样 就 得 到 
图 7-21b。 请 注意 ,将 流 4 的 计数 器 值 400 复位 为 0， 央 为 第 4 个 流 队 列 是 空 的 。 然 后， 在 图 7-21e 所 示 
的 第 三 次 循环 中 , 流 4 的 计数 器 保持 为 0， 因 为 空 队列 ,前 3 个 流 的 计数 再 次 相 加 ， 但 只 有 一 个 分 组 是 
从 流 3 释放 出 来 。 正 空 流 队 列 剩 下 的 信用 将 预 留用 于 第 四 次 循环 。 最 后 ， 经 过 第 四 次 循环 的 信用 更 新 ， 
流 1 和 流 2 的 计数 占 分 别 变 为 200 和 400， 足 够 为 每 个 流 释放 一 个 分 组 ， 如 图 7-21d 所 示 。 此外， 由 于 
在 流 2 和 流 3 中 没有 分 组 排队 ， 所 以 ， 就 像 流 4 一样， 流 2 和 流 3 的 剩余 信用 将 丢弃 

流 队列 1 信用 


200 200 200 200 | 
| 300 200 200 | 


200 | 































200 | 200 || 400 | 


| oe]| | 


流 队 询 \ 




















图 7-20 DRR 算法 的 说 明 
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图 7-21 DRR 操作 的 例子 

这 种 类 型 的 调度 器 在 其 概念 和 实施 上 都 很 简单 ， 但 它 只 是 确保 每 个 流 在 很 长 的 时 间 尺 度 上 得 到 所 
二 要 的 带宽 ， 随 着 流 的 数量 变 大 ， 一 个 流 可 能 会 等 很 长 时 间 才 有 机 会 发 送 分 组 ， 如 果 流 的 分 组 以 恒定 
位 速率 到 达 ， 那 么 长 的 等 待 时 间 可 能 会 导致 流 有 大 的 延迟 抖动 ， 这 意味 着 基 些 分 组 可 能 会 很 快 发 送出 
去 ， 其 余 可 能 会 慢 慢 得 到 服务 ， 有 具体 根据 它们 到 达 队 列 的 时 间 

基于 排序 

基于 排序 的 调度 需 的 概念 和 基于 循环 的 调度 器 是 很 不 一 样 的 。 在 描述 它 之 前 ， 我 们 首先 介绍 一 个 
仪 适用 于 流体 模型 网 络 体系 结构 的 概念 调度 器 。 假 设 有 3 个 流 公 平地 共享 3 Mbps 链 路 。 在 流体 模型 体 
系 结构 中 ， 调 度 天 可 以 将 链 路 分 为 3 条 虚拟 链 路 。 每 个 流 都 在 其 虚拟 链 路 上 可 以 连续 地 发 送 1 Mbps 的 
分 组 而 不 会 因 其 他 流 影响 而 造成 延迟 。 此 外 ， 在 某 一 个 流 没 有 分 组 发 送 时 ， 剩余 带宽 可 以 按 比 例 地 被 
其 他 流量 共享 。 换 名 话说 ， 其 他 两 个 流 中 的 每 个 都 可 以 使 用 1.5 Mbps。 这 种 理想 的 调度 称 为 通用 处 理 
器 共享 (GPS) ， 这 是 不 可 能 实现 的 ， 因 为 输出 链 路 每 次 只 能 传输 一 个 分 组 。 现 实情 况 属 于 分 组 模型 的 
情况 。 图 7-22 显示 了 流体 模 击 和 分 组 模式 之 间 的 差异 。 在 流体 模型 中 来 自 不 同 流 的 分 组 传输 会 同时 进 
行 ， 但 分 组 模式 则 是 交错 进行 的 
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图 7-22 在 流体 和 分 组 模型 中 分 组 发 送 的 顺序 
量 然 最 优 的 调度 器 无 法 实现 ， 但 可 以 根据 分 组 的 大 小 ee 
序 ry pa 型 最 优 调 度 回 传输 完成 的 相同 顺序 发 送 分 组 ， 分 组 模型 调 虐 需 就 被 
认为 是 理想 的 ， 这 个 想法 很 容易 ， 但 是 按照 流体 模型 中 相同 的 传输 顺序 完成 并 不 是 aa 有 很 
多 建议 使 用 的 算法 ， 六 它们 的 设计 可 以 归结 为 精确 的 带宽 共享 和 实现 的 复杂 性 之 问 的 平衡 下 面 我 
们 详 述 基于 排序 的 调度 需 的 一 个 版 本 ， 它 由 A.K. Parekh 和 R. G. Gallager 于 1993 年 提出 的 分 组 GPS 
(PCPS) ， 以 此 说 明 这 些 调 虚 器 的 操作 ， 
分 组 GPS 
PCPS 又 称 为 加 权 公 平 排队 (WFQ) 。 默 认 操作 是 每 个 分 组 在 旬 达 流 队列 时 ， 会 得 到 一 个 虚拟 的 完 
成 时 间 丽 (VFT) ， 调 度 上 贿选 择 所 有 流 队 列 中 具有 最 小 VTF 的 分 组 发 送 " 去 。VFT 的 计算 与 人 到达 虚拟 系 
统 时 间 (VST) 、 分 组 大 小 、 分 组 所 属 流 的 预 留 的 带宽 有 关 VTF 确定 其 传输 顺序 ， 所 以 
VFT 的 计算 是 确定 分 组 异型 调 | 度 器 能 够 有 效 地 模拟 流体 模型 训 带 的 关键 
根据 该 算法 ， 如 果 流 是 活动 的 ， 这 就 意味 着 在 rr 分 组 等 待 ， 那么 下 一 个 到 来 分 组 的 
VFT 将 等 可 


~ es 

(rs 

中 
其 中 疡 是 流 宇 的 第 大 个 分 组 的 YTF， 忆 是 流 记 的 第 个 分 组 的 长 度 ，4, 为 分 配 的 4 理论 上， 如 果 
ee 流 的 第 一 个 分 组 都 同时 到 达 ， 那么 所 有 的 流 将 永远 积 卜 ， 根 据 上 上 式 ， 起 福 知 员 与 流体 模型 调 


区 天 中 相同 的 传输 完成 顺序 。 不 幸 的 是 ， 这 是 很 罕见 的 情况 ， 在 实际 情况 下 ， Re 然后 再 忙 
有 必 此 考虑 如 何 为 活动 流 的 第 一 个 分 组 设置 VTF， 在 一 般 情 况 下 ， 第 一 个 分 组 到 达 的 VTF 的 计 
算 方法 如 下 ， 


0 其 中 V(L) 就 是 YTF， 这 是 一 个 在 每 个 由 分 组 事件 到 达 或 离开 任何 室 队 列 分 隐 的 时 间 问 隔 区 问 的 
实际 时 间 t 的 线性 函数 。 假设 将 整个 时 间 分 为 4 个 区 间 。7, 和 5, 分 别 表示 第 i 个 区 间 的 开始 实际 时 间 
和 虚拟 时 间 ， 其 中 i=1…n。 然 后 ， 在 第 i 个 区 间 的 V(t) 可 以 表示 为 ， 


V4) = 5S, +(1- TK, 
= 
4 是 在 第 i 个 区 间 的 活动 流 集合 。 
re J -20 所 示 情 况 ， 图 7-23 显示 了 了 当 使 用 WFQ 时 分 组 的 调度 结果 ，4 个 流 的 权 值 分 别 
是 0.1、 、0.3 和 0.4， 其 比例 如 图 7-20 给 出 的 量 值 。 假设 所 有 分 组 在 同一 时 间 到 达 ， 这 意味 着 它 
们 的 V(1) =0。 除了 显示 分 组 的 长 度 外 ， 在 图 7-23a 中 每 个 分 组 用 标识 符 进 行 标记 。 然 后 ， 图 7-23b 显 
示 了 每 个 分 组 的 VTF， 根据 上述 公式 进行 计算 例如， 在 流 队 列 2 中 的 第 一 个 分 组 的 VTF 可 以 通过 将 
V(0) 添加 到 其 长 度 200 和 流 权 重 0.2 的 商 得 人 到， 因此 等 于 1000， 慎 么 ， 它 的 下 一 个 分 组 (标识 符 为 6 
的 分 组 ) 的 VFT 等 于 VC0) + (200X0.2) + (200X0.2)， 或 者 2000， 最 后 ， 得 到 所 有 分 组 的 VFT 后 ， 
斌 容易 得 到 WFQ | 度 器 的 分 组 释放 顺序 ， 如 图 7-23c 所 示 
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标识 符 分 组 长 度 


流 队 玖 1 (w=01) | 
流 队列 2 (W102 本 

流 队列 2 (8.=0.2) 7.300 区 
流 队 列 3 ($=0.3) 11,200 | [10,200 ] 9.400 | [5,200 ] 


流 队 到 4 (br03) | 
a) 






































ET 





V 
流 队 到 1 (=01) | 
流 队 列 2 ($=0.2) 3500 3000 1000 


沟 从 3 (8-03) | 






















































流 队列 4 ($=04) | 
b) 
Fl FI FI F2 F3 F3 F2 FI F4 谍 区 [4 
| 4,300 ][ 3,300 J[ 3,200 J[ 7,300 JE 1,300]010,300][ 5,400 [6,300 JC ,300 CG,200][5,200 ]E8,300 [2200 
输出 队列 一 一 一 一 全 ， 
ey 标识 符 分 组 长 度 


图 7-23 一 个 WFQ 的 操作 例子 
实际 三 ，YG) 的 定义 是 设计 这 样 一 种 基于 排序 调度 带 的 关键 问题 。 虽 人 然 它 需 要 花费 太 多 的 精力 来 
计算 V4) ,但 它 可 以 确保 PGPS 中 分 组 的 传输 完成 次 序 恰好 等 于 CPS 中 的 传输 完成 次 序 ， 一 个 容易 计 
算 的 V(1) 可 能 会 导致 一 个 新 的 活动 流 获得 或 小 或 大 的 VEFT， 因 此 比 其 他 活动 流 共 享 更 多 或 更 少 的 带 
锡 ， 这 不 仪 降 低 了 带宽 分 配 的 公平 性 ， 市 且 也 影响 了 调度 融 的 最 坏 情况 延迟 保证 。 


开源 实现 7.5: 分 组 调度 

概述 

已 经 提出 了 许多 算法 来 处 理 调度 问题 ， 事 实 上 ， 即 使 我 们 只 考虑 公平 排队 调度 ， 它 也 会 是 一 个 很 
长 的 清单 ， 有 这 么 多 的 算法 ， 因 为 难以 准确 、 高 效 地 调度 分 组 ， 下 面 的 解释 是 基于 排序 的 PCPS 算法 
的 实现 ， 这 是 许多 现 有 算法 的 鼻祖 ， 也 是 最 难以 实现 的 一 种 。 

数据 结构 

PCPS 算法 是 在 net/sched/sch csz.c 中 csz qdisc ops 模块 实现 的 。 该 模块 为 每 个 流 分 配 一 
个 csz _ flow 结构 ， 以 保存 其 信息 。 这 里 有 两 个 变量 ，start 和 finish， 保 存在 其 流 队 列 中 分 组 的 
最 小 和 最 大 完成 时 间 丽 。 原 理 上 ， 流 队列 的 头 部 分 组 具有 最 小 的 完成 时 间 惟 ， 尾 部 分 组 具有 最 大 的 时 
间 堆 .除了 结构 csz_flow 外 ，csz qdisc ops 模块 维护 了 两 个 列表 ， 分 别 为 s 和 于， 用 来 实现 
PGPS 调度 器 。 在 列表 中 的 项 目 是 指向 结构 csz flow 的 地 址 。 虽 然 这 两 个 列表 用 来 链接 活动 的 流 ， 但 
链表 s 根据 结构 csz flow 中 的 变量 start 排序 ， 其 中 每 个 流 的 start 保存 流 队 列 中 头 部 分 组 的 虚拟 
完成 时 间 役 。 因 此 列表 s 帮助 csz_dequeue () 快速 地 从 正确 的 流 队列 中 取出 下 一 个 传输 的 分 组 ， 因 为 
在 列表 s 中 的 第 一 个 流 队 列 的 头 部 分 组 一 定 具有 最 小 的 VFT。 另 一 方面 ， 列 表 工 根据 变量 finish 进 
行 排序 ， 这 里 每 个 流 的 finish 保存 流 队列 中 尾部 分 组 的 VFT。 列表 ff 包含 在 PCPS 的 虚拟 系统 时 间 计 
算 中 ， 将 在 后 面 与 函数 csz update () 一 起 介绍 。 

算法 实现 

接 下 来 我 们 介绍 csz_qdisc_ops 模块 中 的 3 个 主要 函数 ， 并 说 明 它 们 的 流程 图 ， 函数 csz en- 
queue () 是 模块 的 入 口 ， 其 流程 图 如 图 7-24 所 示 。 当 分 组 到 达 时 ， 函 数 csz enqueue () 首先 计算 其 
VTF， 为 了 计算 一 个 活动 流 的 第 一 个 分 组 的 VFT， 当 前 虚拟 系统 时 间 (VST) 是 必要 的 因此 ， 计 算 之 
前 需要 调用 函数 csz_update ()。 为 了 使 流 变 为 活动 ，csz_enqueue () 需要 通过 将 它 插入 列表 s 来 唤 
醒 它 ， 这 会 给 流 再 次 发 送 分 组 的 机 会 。 
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csz_classify(): 获得 流标 识 符 | 


1 






















更 新 VST 





ca Updatel(y: 








根据 上 一 个 VST 
计算 新 的 VFT 


Caz Lnsert Findsh(): 
贤 醒 流 


| ese Lnsert start{(): 


唤醒 流 





根据 VST 
计算 新 的 VFT 











skb queue tail() 





图 7-24 霄 数 csz_enque () 的 流程 图 
如 图 7-25 所 示 ， 函 数 csz _ dequeue () 持续 发 送 列表 s 中 第 一 个 表 项 所 指 流 队 列 的 头 部 分 组 ， 当 
一 个 流 的 分 组 发 送出 去 时 ，csz _ dequeue () 将 调用 csz insert start ( te 表 s 以 
便 保 持 其 下 一 次 循环 的 机 会 ， 如 果 流 队列 不 为 空 ， 如 果 流 队列 为 空 ， 就 将 它 从 列表 S 中 删除 ， 以 避免 
浪费 系统 资源 。 





获得 csz_flow， 这 里 头 部 


分 组 ， 具有 最 小 的 VFT 


skb_dequeue () :获得 流 的 
头 部 分 组 
流 非 空 吗 
返回 分 组 用 于 发 送 


图 7-25 ”函数 csz deque () 的 流程 图 
第 三 个 函数 ，csz update(), 在 csz qdisc ops 模块 中 起 着 关键 的 作用 ， 如 图 7-23 所 示 。 它 
负责 计算 VST。 根 据 在 PGPS 中 的 描述 ， 当 分 组 到 达 和 离开 时 ， 就 进行 一 次 VST 计算 。 然 而 ， 通 过 对 

列表 王 的 维护 ， 只 有 当 分 组 到 达 时 csz qdisc ops 才 重 新 计算 VST。 这 是 由 函数 csz _update () 维护 
的 ， 如 前 面 所 述 。 首 先 ，csz update () 记录 从 上 次 调用 时 间 到 一 个 可 变 延 迟 所 逝去 的 时 间 。 其 次 ， 
它 假 设 自 从 上 次 调用 的 所 有 流 仍然 是 活动 的 ， 并 计算 出 当前 的 VST。 然 后 VST 与 列表 f 中 标记 为 的 
第 一 个 表 项 变量 finish 进行 比较 。 如 果 VST 小 于 下 ， 流 一 定 是 不 活动 的 。csz update () 将 从 列表 
中 删除 它 并 在 流 变 成 不 活动 时 计算 VST， 即 不 活动 流 发 送 最 后 一 个 分 组 所 需要 的 时 间 。 延 迟 也 要 更 改 
为 从 流 变 成 不 活动 开始 所 逝去 的 时 间 。 下 一 步 ，csz_update () 返 回 到 图 7-26 中 带 有 双边 框 的 步骤 ， 
直到 得 到 正确 的 VST， 并 从 列表 f 中 删除 所 有 不 活动 的 流 。 

练习 

1. 与 复杂 的 PCPS 相 比 ，DRR 无 论 在 概念 还 是 实现 上 都 容易 得 多 。 可 以 在 smh drr.c 中 找到 其 实 
现 。 请 阅读 代码 ， 并 解释 这 个 简单 而 又 实用 的 算法 是 如 何 实现 的 



















重新 计算 流 中 的 最 小 
VET 








csz insert start () 
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将 aelay 设 置 为 自 上 次 到 达 分 组 假 设 所 有 的 流 是 活动 的 并 计算 
开始 逝去 的 时 间 当前 的 VST 

















如 果 存 在 任何 活动 的 流 


在 列表 f 中 的 第 一 个 流 是 不 活动 的 





























从 列表 E 的 头 部 中 获得 最 小 的 VET,F | 
在 流 变 成 为 不 活动 时 计算 
VST 并 调整 延迟 
所 有 剩余 流 是 活动 的 并 且 








我 们 得 到 正确 的 F 





图 7-26 ”函数 csz_upaate () 的 流程 图 
. 在 文件 夹 sched 中 有 多 种 调度 sh 对 于 每 种 实现 ， 你 可 以 找 出 它 与 其 他 算法 的 不 同 之 
处 吗 ? 它们 是 否 都 属于 公平 排队 调度 


7. 3.5 ”分 组 丢弃 

除了 调度 算法 处 理 多 个 队列 外 ， 在 服务 质量 体系 结构 中 单个 队列 的 分 组 丢弃 机 制 是 必要 的 ， 这 里 
有 多 个 流 可 能 将 分 组 转 储 到 一 个 单 类 队列 来 共享 为 队列 分 配 的 带宽 。 这 样 一 种 丢弃 机 制 会 阻止 行为 不 
端的 流 将 更 多 的 数据 分 组 输入 到 队列 中 而 过 度 消 耗 其 寓 宽 ， 下 面 介绍 两 类 数据 分 组 丢弃 机 制 。 

尾部 丢弃 

尾部 丢弃 是 最 简单 的 分 组 丢弃 策略 ,通常 用 于 先进 先 出 (FIFO) 排队 。 当 队列 中 没有 多 余 空 间 
时 ， 该 策略 就 丢弃 新 到 达 的 分 组 ， 如 图 727a 所 示 。 到 达 的 分 组 将 被 丢弃 ， 直 到 有 可 用 的 队列 空间 为 
止 。 因 为 尾部 丢弃 是 先进 先 出 排队 的 默认 策略 ， 在 先进 先 出 队列 中 经 常 出 现 的 问题 也 会 在 尾部 丢弃 中 
出 现 。 例 如 ， 当 一 个 突 发 源 i 定 速 率 的 源 共 享 一 个 先进 先 出 队列 时 ， 这 个 突 发 源 可 能 
在 短 时 间 内 占用 所 有 可 用 的 队列 空间 ， 从 市 造成 从 其 他 源 新 到 达 的 分 组 丢弃 。 如 果 把 单一 队列 分 成 多 
个 队列 ， 这 个 问题 就 可 以 避免 。 册 和 个 闪 清扫 有 生 放 和 限 的 队列 。 然 而 ， 这 意味 着 即使 当 路 由 天 还 
有 队列 空间 时 ， 有 些 分 组 也 可 能 会 被 天 人 弃 

尾部 丢弃 (自然 法 ) : 当 队 列 满 时 丢弃 分 组 


芯 画 瑟 症 国 本 


欠 丈 
丢弃 a) 尾部 丢弃 We 


早期 丢弃 : 在 队列 满 之 前 丢弃 分 组 


队列 
以 P 概 率 
丢弃 


丢弃 b) 早期 丢弃 的 演示 
图 7-27 
因此 ， 在 许多 路 由 带 中 目前 的 实现 是 最 长 队列 尾部 丢弃 (LQTD)。 所 有 服务 队列 共享 一 个 共同 的 
内 存 池 ， 并 且 当 没有 更 多 的 空间 给 一 个 新 分 组 排队 时 位 于 最 长 队列 尾部 的 分 组 首先 被 丢弃 。 这 种 细 化 
使 得 分 组 的 到 达 率 超过 分 配给 它们 的 服务 速率 的 服务 类 具有 较 高 的 丢弃 概率 ， 而 在 分 配 的 速率 之 内 十 
作 的 服务 类 会 有 低 的 丢弃 概率 ， 因 为 它们 通常 有 更 短 的 队列 。 















EE 


队列 
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早期 丢弃 

虽然 LQTD 可 以 有 效 地 阻止 任何 流 过 度 占 用 队列 空间 ， 但 它 需 要 分 组 分 类 以 便 确定 分 组 届 于 哪个 
流 ， 如 果 有 很 多 流 经 过 这 台 路 由 涡 ， 那么 这 将 是 很 沉重 的 负担 . 因此 ， 如 果 优 先 选择 所 有 流 使 用 一 个 
队列 .那么 阻止 资源 滥用 的 可 能 方式 是 在 队列 将 满 时 以 一 定 的 概率 丢弃 新 到 达 的 分 组 ， 如 网 7-27b 所 
示 ， 这 种 思想 称 为 早期 丢 章 。 这 种 策略 期 望 及 时 地 向 流 的 源 报警 ， 阅 明 队 列 的 大 小 是 不 是 的 ， 以 便于 
这 些 源 降低 它们 的 传送 速率 防止 发 送 过 来 的 分 组 丢失 . 这 种 策略 可 以 避免 像 尾 部 和 奔 策 略 在 很 得 的 时 
问 丢 奔 连 续 的 包 ， 那么 连续 释 弃 常常 严重 降低 TCP 流 的 在 吐 量 

设计 这 种 策略 的 关键 问题 是 判断 排队 空间 是 否 将 满 。 队 列 长 度 的 赔 值 可 能 是 最 有 具 启 发 式 的 方式 ， 
一 旦 队列 长 度 大 于 冰 值 ， 新 到 达 的 分 组 将 会 以 一 定 概率 被 委 茎 。 然 而 ， 由 于 队列 长 度 的 变化 很 大 ， 一 
个 意外 轩 积 的 氏 队 列 并 不 总 是 意味 着 一 个 满 队 列 事件 即将 到 来 .在 同样 分 组 到 达 情 况 下 ， 时 期 于 弃 的 
结果 可 能 会 时 禾 比 尾部 天 弃 策 略 殉 多 总 的 天 弃 分 组 数 ， 人 尽管 连续 的 大 弃 可 以 被 早期 于 介 所 避免 


开源 实现 7.6: 随机 早期 检测 

就 像 调度 算法 的 情况 一 样 ， 为 了 避免 排队 拥塞 和 TCP 吞吐 量 降 级 ， 提 出 了 许多 排队 管理 ( QM) 
算法 来 决定 如 何 丢 弃 分 组 ， 其 中 ,我 们 介绍 一 种 早期 丢弃 类 型 的 排队 管理 算法 ， 随 机 早期 检测 
(RED)。 这 里 我 们 介绍 RED， 因 为 它 是 最 著名 的 早期 丢弃 排队 管理 算法 

数据 结构 

RED 算法 的 实现 可 以 在 net/sched/sch red.c 中 找到 。 结 构 red sched data 保存 必需 的 参 
数 以 便 运行 算法 ， 如 qave、qth max 和 qth min，RED 依赖 于 平均 队列 长 度 qave 预测 一 个 即将 满 
的 队列 ， 避 免 不 必 要 的 分 组 丢弃 . 当 qave 小 于 最 小 阅 值 qth min， 可 以 将 所 有 到 达 的 分 组 插入 队列 
中 。 当 gqave 大 于 qth min 时 ， 以 概率 Pb 丢弃 到 达 的 分 组 ，Pb 的 计算 如 下 ， 


(min | qave, dth_max | — qth_min) 





Pb =max _P. 
) 二 max ( qth_max 一 dth_min ) 


max P 是 当 gqave 宇 qth max 时 丢弃 分 组 的 最 大 概率 ， 但 是 其 值 可 以 建议 为 0.1 或 0.2， 而 不 是 1， 将 
max_P 设置 为 1 时 ， 会 丢弃 所 有 到 达 的 分 组 ， 这 是 不 必要 的 因为 即使 当 qave 比 qth max 大 时 ， 仍 有 
空间 来 排队 分 组 ， 

算法 实现 

现在 我 们 检查 决定 是 否 入 队 或 丢弃 (标记 ) 一 个 分 组 的 代码 段 

1 if (++q->qcount) 1{ 
if (((g->qave - q->qth min)>>q->Wlog)*q->sgqcount < q-SqR) 
goto enqueue; 
q->qcount = 0; 


gq->qR = net random()&q->Rmask; 
sch->stats,.overlimits++; 


[3 


< et 茹 心 


goto mark; 

在 代码 段 中 ， 第 2 行 判 断 到 达 的 分 组 是 否 入 队列 。gR 是 一 个 0~Rmask 的 整 型 随机 变量 ， 这 里 
Rmask =2 “”， 在 实现 中 ， 为 了 确保 所 有 算法 只 使 用 移 位 操作 ，qave、qth max 和 qth min 是 固定 的 
浮 点 数 ， 存 储 在 Wlog 中 ， 即 它们 的 实际 值 等 于 它们 目前 的 值 除 以 2"“，。 明显， 第 2 行 不 同 于 上 面 所 
述 的 概率 方程 ， 为 了 了 解 第 2 行 如 何 实现 方程 ， 我们 首先 忽略 变量 qcount， 下 一 步 ， 因 为 在 实现 中 
max PP 很 谨慎 地 选择 为 
dth_max ~ qth_min 


I Met Plog 
我 们 可 以 为 Ph 重 写 方程 为 
Ph = (qave ~ qth_ min) 


I Wet Pho 





然后 ， 如 果 Ph < 和 = 记得 ， 这 个 分 组 就 会 入 队 ， 这 里 不 等 式 的 右边 是 根据 第 5 行 对 qR 定义 的 一 个 
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0~1 的 随机 变量 ， 最后， 在 不 等 式 的 两 边 都 | pal 就 得 到 第 2 行 的 实现 。 这 里 我 们 回 过 头 来 解释 
qcount 的 目的 。 第 2 行 中 qcount 的 值 是 0， 当 qave 第 一 次 落 入 到 两 个 靖 值 之 间 并 保持 为 1 直到 
qave 离开 了 这 个 范围 为 止 。 因此， 它 确 保 qave 值 落 入 这 个 范围 后 第 一 个 分 组 到 达 后 就 可 以 插入 
队列 。 
在 RED 中 ， 男 一 个 关键 设计 是 计算 平均 队列 长 度 qave， 这 是 实际 队列 长 度 的 指数 平均 ， 即 
qave = qave x (1 —w)+sch 一 > stats. backlog xw 

sch ->stats. backlog 是 当前 队列 长 度 w 是 在 计算 新 值 中 一 个 旧 的 qave 的 权 值 ， 并 将 它 设置 为 

1/(2"””“) 然后 ， 由 于 sch -> stats. backlog 是 整数 ， 通 过 把 它 转换 为 1og 中 国定 浮 点 数 ， 就 像 
qave 一 样 ， 将 前 面 的 方程 实现 变 为 可 ->dave =d->dave- (qd->dave >>q ->SWlog) +sch -> 
stats. backlog, 


例子 
接 下 来 ， 图 7-28 给 出 了 一 个 说 明 RED 操作 的 例子 , 令 qth min=1、qth max =4、max P=0.1, 
还 有 w= 因此 mw 表明 qave 总 是 等 于 当前 队列 长 度 ” 然后， 如 图 7-28a 所 示 ， 由 于 队列 中 没有 分 组 ， 


所 以 gave =0 并 且 将 丢弃 概率 Eb 设置 为 0. 然而， 如 图 7-28h 所 示 ， 在 分 组 1 和 分 组 2 插入 队列 后 ， 
qave 增加 到 2， 导 致 将 Pb 调整 为 0.033。 在 这 种 情况 下 ， 有 些 分 组 可 能 被 丢弃 ,例如 分 组 3。 最 后 ， 
如 图 7-25¢ 所 示 ， 随 着 更 多 的 分 组 插入 ， 不 断 增加 的 qave 超过 了 qth max 的 边界 值 4， 这 样 就 会 应 用 
一 个 更 高 的 Pb 值 0.1。 也 就 是 说 ， 更 多 的 分 组 将 被 丢弃 ， 例 如 分 组 8 和 分 组 10。 





dth max 4 qh min=1 


天 齐 


a) qave=0, Pb=0 





丢弃 dth_max -4 qth_min=| 


bi) qave=2: Pb (3=1) / (#1) =0;033 


加 回回- 一 下 "六 妆 [ 国 可可 天 辐 
丢弃 









qth max4 qth_min=1 





c) qave=6; Pb=0.1 (4=1)/(4=1) =0.1 


图 7-28 RED 的 操作 例子 


练习 
从 /net/sched/ 中 ,你 可 以 找到 一 个 RED 变种 ， 称 为 通用 随机 早期 检测 (CRED)， 在 sch _ 
gred. c 中 实现 ,设法 说 明 它 是 如 何 工 作 的 以 及 与 RED 有 何不 同 


行动 原则 : 目前 日 常 使 用 的 服务 质量 组 件 
虽然 IntServ 和 DiffServ 从 来 没有 在 全 球 范 围 部 署 以 便 实 现 支持 QoS 的 互联 网 ， 但 有 些 服务 质量 组 
件 日 常 存 在 于 互联 网 的 局 部 范围 内 。 它 们 中 没有 一 个 是 控制 平面 的 组 件 ， 因 为 它们 需要 使 用 导致 互联 
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网 无 状态 性 质 改 变 的 RSVP 协议 
这 里 让 我 们 回顾 一 些 实例 。 流 标识 或 分 类 大 量 用 在 防火 墙 中 用 于 实现 访问 控制 ， 但 这 是 为 了 
全 而 不 是 为 了 服务 质量 的 目的 ， 这 里 某 些 耳 子 网 或 端口 号 会 被 禁止 。 令 牌 桶 用 于 以 太 网 i 
率 限 制 在 远 低 于 某 些 交换 机 端口 的 链 路 容量 。 分 组 调度 常用 于 接 入 链 路 在 ed 上 执行 带宽 管理 ， 
At 带宽 的 PP， 在 众多 的 骨干 网 路 由 器 上 使 用 分 组 丢弃 或 队列 管理 是 为 了 减轻 拥塞 
避免 连续 的 分 组 丢弃 。 总 之 ,尽管 IntServ 和 DiffServ 可 能 成 为 历史 ,但 是 它们 的 许多 技术 组 件 将 
er 


7.4 总结 


本草 开始 介绍 了 构建 服务 质量 网 络 所 涉及 的 6 个 关键 组 件 ,3 个 控制 平面 组 件 、 信 令 协 议 、QoS 路 
由 和 许可 控制 负责 路 由 器 之 间 资 源 的 协商 、 确 定 一 个 保证 服务 质量 的 路 径 和 控制 网 络 的 负载 。 两 个 数 
据 平 面 组件 ， 监 管 器 和 调度 器 ， 根据 第 三 个 数据 平面 组 件 一 一 分 类 器 ， 将 分 组 分 为 不 同 的 队列 ， 从 而 
控制 转发 时 间 和 收 到 分 组 的 顺序 。 

利用 这 些 补充 作为 构建 模块 ，IETF 提出 了 两 种 互联 网 服务 质量 体系 结构 :IntServ 和 DiffSeryv， 以 便 
构造 一 种 能 够 支持 服务 质量 的 网 络 。 集 成 服务 是 一 种 昂贵 的 解决 方案 ， A 
证 的 虚拟 私有 网 络 。 相 反 ， 区 分 服务 是 一 种 实用 的 体系 结构 ， 但 只 为 不 同 层次 的 用 户 提 供 了 区 分 服务 。 
在 介绍 了 支持 服务 质量 的 IP 网 络 的 体系 结构 之 后 ,我们 将 详细 说 明 构 建 一 种 支持 服务 质量 pi 
技术 ,这 上 比 体系 结构 有 更 多 的 研究 问题 。 尽管 集成 服务 和 区 分 服务 未 能 得 以 部 团 ， 但 还 是 有 许多 QoS 
组 件 在 我 们 的 日 常 使 用 中 得 以 流行 ， 尽 管 是 在 一 个 相当 有 限 的 范围 内 


常见 陷阱 


整形 和 调度 

尽管 这 两 种 操作 都 能 调节 流 的 在 吐 量 ,但 它们 的 目的 是 不 同 的 。 整 形 的 日 标 是 改变 或 限制 一 个 流 
的 在 吐 量 的 均值 或 方差 (偏差 )， 以 确保 存 吐 量 经 过 整形 器 后 符合 流 的 轮廓 。 操 作 仪 针对 一 个 流 。 然 
而 ， 调 度 通常 用 于 一 组 流 争夺 一 条 有 限 带 宽 的 链 路 。 调 度 负责 为 这 些 流 分 配 带宽 ， 根 据 预 定义 的 策略 ， 
如 均等 或 按 比 例 共 享 。 利 用 一 组 整形 器 替代 调度 器 后 果 会 如 何 ” 这 真 的 是 一 个 坏 主意 。 第 一 ， 运 行 一 
组 整形 器 比 调度 器 花费 更 多 的 硬件 资源 第 二 ， 由 于 在 这 些 整形 器 之 间 没 有 通信 ， 所 以 很 难以 实时 的 
方式 将 未 使 用 的 带宽 分 配给 更 再 要 的 流 











WRR 和 WFQ 


因为 WRR 和 WFQ 是 具有 代表 性 的 两 种 任务 调度 算法 ， 所 以 再 次 强调 它们 之 间 的 差异 是 很 重要 
的 。WRR 是 一 种 为 一 组 流 调 度 分 组 的 简单 的 方式 。 给 每 个 流 队 列 分 配 一 个 权 值 ， 调 度 器 的 作用 仅 以 循 
环 的 方式 服务 于 这 些 流 。 然 后 ， 当 服务 一 个 流 时 ， 人 允许 发 送 分 组 的 数量 是 其 权 值 的 倍数 ,虽然 WRR 
的 概念 和 实现 很 简单 .但 当 流 增加 时 每 个 流 可 能 会 等 竺 很 长 的 时 间 才 能 待 到 服务 ， 尤 其 是 如 果 流 中 的 
分 组 错过 了 了 自己 的 发 送 机 会 时 更 是 如 此 ，WFe 的 设计 就 是 为 了 避免 这 个 问题 。 它 以 动态 顺序 服务 流 队 
列 ， 根 据 每 个 流 的 头 分 组 中 的 时 间 戳 排序， 因此 ， 在 一 个 分 组 应 该 发 送 的 时 刻 ，WFQ 应 该 为 它 服务 然 
后 再 服务 于 另 一 个 流 。 由 于 在 WFQ 下 无 一 遗漏 ， 所 以 WFQ 可 以 保证 更 短 的 最 坏 情况 延 下 的 迟 限 制 和 
比 DRR 更 好 的 公平 性 


进一步 阅读 
QoS 架构 和 协议 


这 里 引用 的 阅读 资料 中 ， 首 先 ， 是 一 本 专门 介绍 QoS 的 书 。 其 次， 是 一 份 很 好 的 有 关 IP Qos 主 
题 的 专题 论文 。 再 次 ， 介 绍 的 是 IntServ 二 总 体 思路 和 体系 结构 ， 市 后 黄 个 分 别 说 明 它 的 保证 服务 和 
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控制 负载 服务 。 第 6 个 是 一 篇 有 关 RSVP 很 有 用 的 畏 导 论文 。 第 7 个 说 明 区 分 服务 的 体系 结构 ， 并 且 
从 第 7 个 阅读 资料 中 你 可 以 学 到 IPv4 头 部 中 的 Tos 字段 如 何在 区 per te 下 面 的 两 
个 RFC 描述 了 在 DiffSer 中 转发 的 两 种 类 型 。 最 后 两 篇 文献 分 别 是 与 Qo5 在 无 线 和 Web 服务 的 部 署 
有 关 : 
® 7. Wang, Internet QoS: Architectures and Mechanisms for Quality of Service, Morgan Kaufmann 
Publishers, 2001. 
eo X. Xiao LM. Ni, “Internet QoS: A Big Picture,” /EEE Network, Vol. 13, Issue 2, pp. 8 —18, 
Mar. 1999. 
oR. Braden, D. Clark, and S. Shenker, “Integrated Services in the Internet Architecture: An Over- 
view,” RFC 1633, June 1994. 
®S. Shenker, C. Partridge, and R. Guerin, “Specification of Guaranteed Quality of Service, ” RFC 
2212, Sept. 1997. 
e . Wroclawski, ™ Specification of the Controlled-Load Network Element Service,” RFC 2211, 
Sept. 1997. 
®1. Zhang, S. Deering, D. Estrin, S. Shenker, and D. Zappala, “ RSVP: A New Resource Reservation 
Protocol ， JIEEE Network, Vol. 7, lssue 5, Sept. 1993. 
®S. Blake, D. Black, M. Carlson, E. Davies, 7Z. Wang, and W. Weiss, “ An Architecture for Differen- 
tiated Services,” RFC 2475, Dec. 1998. 
ek. Nichols, S. Blake, F. Baker, and D. Black, “Definition of the Dif ferentiated Services Field (DS 
Field) in the IPv4 and IPv6 Headers,” RFC 2474, Dec, 1998. 
J. Heinanen, F. Baker, W. Weiss, and J. Wroclawski, “ Assured Forwarding PHB Group,” RFC 
2597, June 1999. 
® B. Davie et al. ,“An Expedited Forwarding PHB,™ RFC 3246, Mar. 2002. 
® H. Zhu, M. Li, I. Chlamtac, and B. Prabhakaran, “ A Survey of Quality of Service in IEEE 802. 11 
Networks， JEEE Wireless Communications, Vol. 11, No. 4, pp. 6-14, Aug. 2004. 
oR. Pandey, J. Fritz Barnes, and R. Fritz Barmes, “Supporting Quality of Service in HTTP Servers,” 
Proceedings of ACM Symposium on Principles of Distributed Computing, pp. 247-256 ，1998. 


QoS 组 件 
下 面 是 有 关 QoS 组 件 的 经 典 论文 清单 。 前 3 个 是 许可 控制 ， 第 4 个 是 分 组 分 类 。 接 下 来 的 5 篇 论 
文 是 有 关 调 度 的 ， 最 后 两 个 是 有 关 RED 和 AQM 算法 
e R. Guerin, H. Ahmadi, and M. Naghshineh, “ Equivalent Capacity and lts Application to Bandwidth 
Allocation in High-Speed Networks,” JEEE Journal on Selected Areas in Communications, Vol.9, 
No. 7, pp. 968 —981, Sept. 1991. 
®S. Jamin, P. B. Danzig, S. J. Shenker, and L. Zhang, “ A Measurement-Based Admission Control 
Algorithm for Integrated Service Packet Networks,” IEEE Transactions on Networking, Vol.5, lssue 1, 
pp: 56 - 70, Feb. 1997. 
eo]. Qiuand EE. W. Knightly, “ Measurement-Based Admission Control with Aggregate Traffic,” JEEE/ 
ACM Transactions on Networking, Vol.9, lssue 2，pp. 199 ~210, Apr. 2001. 
eT. V. Lakshman and D. Stiliadis, “ High-Speed Policy-Based Packet Forwarding Using Efficient Multi- 
Dimensional Range Matching,” ACM SIGCOMM, pp. 203 ~214, Oct. 1998. 
® A. K. Parekh and R. G. Gallager, “ A Generalized Processor Sharing Approach to Flow Control in Inte- 
grated Services Networks: The Single Node Case,” IEEE/ACM Transactions on Networking, Vol.1, 
jssue 3 ，pp. 344 - 357, June 1993. 
e M. Shreedhar and G. Varghese, “Efficient Fair Queueing Using Deficit Round Robin,” IEEE/ACM 
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Transactions on [Networking, Vol.4, Issue 3, pp. 375 -385 ，June 1990. 

® D. Stiliadis and A. Varma, “ Latency-Rate Servers: A General Model for Analysis of Traffic Scheduling 
Algorithms,” JEEE/ACM Transactions on Networking, Vol.6, Issue 5, pp. 611 ~624, Oct. 1998. 

®]J. C. R. Bennettand H. Zhang, “ WF2Q: Worst-Case Fair Weighted Fair Queueing,™ in Proceedings of 
the IEEE INFOCOM, Mar. 1996. 

®J. Golestani, “A Self-Clocked Fair Queueing Scheme for Broadband Applications,” in Proceedings of the 
IEEE INFOCOM, June 1994. 

®S. Floyd and V. Jacobson, “Random Early Detection Gate ways for Congestion Avoidance,” JEEE/ 
ACM Trans-actions on Networking, Vol.1, Issue 4, pp. 397 —413, Aug. 1993. 

®S. Athuraliya, V. H. Li, SS. H. Low, and Q. Yin, “REM.: Active Queue Management,” /EEE Net- 
work, Vol.5, Issue 3, pp. 48 ~53, May/June 2001. 


Linux 流量 控制 模块 


下 面 是 有 关 如 何在 Linux 环境 下 设置 和 配置 流量 控制 模块 的 两 个 Web 网 页 。 

e Jason Boxman，“A Practical Guide to Linux Traffic Control,” URL: http: //blog. edseek. com/ ~ jas- 
onb/articles/traffic_. shaping/ . 

e Martin A. Brown, “ Traffic Control HOWTO,” URL: http: //tldp. or g/HOWTO/Traffie-Control- 
HOWTO/index. html . 


常见 问题 解答 


1. 


在 互联 网 中 提供 服务 质量 保证 需要 什么 样 的 控制 平面 和 数据 平面 机 制 ? 
答 : 控制 平面 : 信 令 协议 、 许 可 控制 、QoS 路 由 。 
数据 平面 : 分 类 、 监 管 策略 、 调 度 。 


. WFQ 与 WRR 对 比 。( 比较 其 复杂 性 和 可 扩展 性 ,) 


答 : 复杂 度 : WFQ (0 (logn)) >WRR (0 (1))。 
可 扩展 性 : WRR > WFQ。 


. 为 什么 RED 比 FIFO 更 好 ， 尤 其 是 应 用 于 实时 流量 时 更 是 如 此 ? 


答 : RED 避免 突 发 性 丢弃 ， 即 连续 的 分 组 丢失 ， 也 就 是 发 生 在 FIFO 上 的 情况 。 实时 流量 通常 有 宛 余 和 
分 层 的 编码 ， 这 里 只 要 丢失 是 分 散 的 ， 即 不 连续 的 ， 那 么 数据 就 是 可 以 恢复 的 ， 


. 将 Int Serv 与 Di Serv 进行 对 比 。( 比较 它们 的 QoS 粒度 、 在 边缘 路 由 器 上 的 复杂 性 、 在 核心 路 由 器 的 复 


杂 性 、 可 扩展 性 。) 

答 : QoS 粒度 : IntServ (每 个 流 ) > DiffServ (每 个 类 ) 。 
在 边缘 路 由 器 上 的 复杂 性 : DiffServ IntServ。 

在 核心 路 由 器 上 的 复杂 度 : IntServ > DiffServ。 

可 扩展 性 : DiffServ > IntServ。 


. 部 署 IntServ 的 障碍 是 什么 ?〈 至 少 列 出 2 种 障碍 。) 


答 : 可 扩展 性 〈 每 个 流 的 Qo5) 、 有 状态 的 路 由 器 、 应 用 程序 的 QoS 信和 令 。 
部 署 DiffServ 的 障碍 是 什么 ? (至 少 列 出 2 种 障碍 ,) 
答 : 有 状态 的 边缘 路 由 器 、 应 用 程序 的 QoS 信 令 ， 或 带宽 代理 。 


练习 
a 


: RSVP 是 一 种 为 终端 主机 设计 的 信 令 协议 ， 用 来 与 路 由 器 协商 资源 预 留 。 从 运行 TC (流量 控制 ) 模块 的 
基于 Linux 的 PC 上 发 送 RSVP 请 求 ， 并 使 用 Wireshark 进行 捕 提 。 然 后 看 看 是 否 理解 请 求 中 每 个 字段 值 
的 含义 。 
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2. 假设 有 一 台 路 由 器 带 有 两 条 链 路 分 别 为 A 和 B， 设置 路 由 器 来 测量 从 A 到 B 流量 的 平均 在 吐 量 (学 市 / 
秒 ) 测量 应 该 按照 每 分 钟 报告 一 次 为 上 基础， 最 好 能 够 实时 地 将 测量 显示 在 一 张 图 上 ， 使 得 网 络 管理 员 


可 以 通过 网 页 浏览 器 远程 地 检查 它 - 

练习 2， 在 路 由 器 上 建立 一 个 许可 控制 器 ， 监 测 用 从 B 到 A 传递 的 TCP SYN 请 求 的 TCP 连接 建立 

i 当 从 A 到 B 或 从 B 到 A 的 平均 在 吐 量 接近 链 路 B 的 带宽 的 80% 时 ， 让 控制 器 开始 过 滤 这 种 请 求 

4. 作为 练习 3 的 继续 ， 不 再 只 是 过 滤 请 求 ， 你 是 否 能 模仿 在 路 由 器 上 的 TCP 拒绝 信息 来 通知 请 求 者 发 送 
失败 ? 

5. 在 Linux 系统 上 建立 令 牌 桶 以 便 将 网 络 适 配器 从 最 大 输出 速率 调整 为 一 个 更 小 的 值 ， 然 后 通过 测量 FTP 
连接 的 看 吐 量 来 观察 调节 效应 

6. 假设 你 是 一 个 互联 网 服务 供应 商 ， 打 算 为 你 的 商业 客户 在 他 们 的 接 入 链 路 上 提供 带宽 管理 服务 。 你 的 一 
个 客户 硕 望 为 赋 发 组 (R&D) 预知 50% 的 下 行 带宽 。 建立 一 个 QoS 感知 的 ISP 一 侧 的 边缘 网 关 来 满足 这 
目标。 在 网 关内 的 分 类 器 应 该 将 进入 的 分 组 分 成 两 类 。 第 一 类 是 研发 组 R&D 中 发 送 给 PC 的 分 组 ， 而 
另 一 类 则 是 其 他 分 组 ， 你 可 以 在 研发 组 R&D 中 的 一 台 PC 上 观看 在 线 流 媒 体 ， 其 质量 完全 不 受到 其 他 组 
中 PC 超载 下 载 流 量 的 影响 ， 由 此 来 演示 证 明 该 服务 是 可 行 的 

. 首先 安装 用 于 外 出 链 路 排队 管理 的 RED 然后， 通过 链 路 建立 多 个 长 寿命 的 TCP 流 并 且 将 它们 的 总 吞吐 
量 与 使 用 FIFO 链 路 管理 的 在 吐 量 进 行 比较 。 此 外 ， 尝 试 观察 在 开源 实现 7.6 中 提 到 的 qave 与 实际 队 
列 长 诬 之 间 的 区 别 


书面 练习 
1 如 7.1 节 所 述 ， 支持 Qos 的 路 由 器 需要 有 6 个 基本 组 件 。 面 出 框图 说 明 一 个 IntServ 路 由 器 的 6 个 组 件 和 
它们 之 间 的 操作 关系 。 当 然 ， 允 许 添加 额外 的 组 件 
2. 假定 流量 由 一 个 带 有 参数 (r, p，B) 的 令 牌 桶 来 调节 。 讨论 令 看 桶 可 能 造成 的 影响 。 例 如 ， 调 整 后 流 
量 的 行为 如 何 ? 或 者， 如 果 调 整 任何 一 个 参数 ， 行 为 如 何 变化 ? 
3. 在 基于 测量 的 许可 控制 中 ,介绍 了 两 种 常用 的 流量 估计 方法 一 个 是 EWMA， 男 外 一 个 是 时 间 窗 口 。 进 
一 步 比 较 两 者 在 估计 上 的 差异 
4. 有 一 个 10 位 / 秒 的 链 路 并 采用 WRR 进行 调度 .假设 该 链 路 由 N 个 分 组 大 小 为 125 字 节 的 流 共 享 .假设 
我 们 为 其 中 一 半 的 流 均 匀 地 分 配 8 x 10” 位 / 秒 的 带宽 ， 剩 下 的 带宽 为 另 一 半 流 分 配 。 然 后 ， 如 果 N= 1 
个 流 是 活动 的 和 积压 的 〈backlogged) ， 那 么 非 活动 流 的 第 一 个 分 组 可 能 遭受 的 最 大 延 俯 是 多 少 ? 
5. 一 般 来 说 ，WRR 适用 于 分 组 大 小 是 固定 长 度 的 网 络 ， 而 DRR 是 一 种 改进 版 本 ， 可 以 处 理 各 种 长 度 
的 分 组 。 事实 上 ， 由 于 它 的 实现 简单 ，DRR 更 受 欢迎 ， 但 它 不 能 保证 小 的 最 坏 情 况 延 迟 。 研 究 它 们 
最 坏 情况 延迟 保证 的 能 力 。 是 否 可 能 改进 DRR 来 提供 比 WRR 更 小 的 最 坏 情况 延迟 ? 
6. 在 最 初 的 RED 算法 中 需要 周期 性 地 趴 踊 队 列 长 度 和 计算 平均 队列 长 度 ， 这 会 给 实现 带 来 很 大 的 负 
担 。 在 TC 中， 提供 了 更 好 的 技术 以 便 减 小 负担 。 你 应 该 观察 在 文件 sch_red. c 中 的 源 代码 并 尝试 
面 出 流程 图 ， 描 述 实现 是 如 何 解 决 问题 的 
7. 在 一 条 接 入 链 路 中 ， 下 行 链 路 流量 的 带宽 管理 是 在 [SP 一 侧 的 边缘 路 由 器 上 实现 的 。 然 而 ， 如 果 供应 
商 不 提供 这 样 的 服务 ， 那 么 在 客户 一 侧 的 边缘 网 关上 提供 服务 是 否 可 能 或 者 有 意义 ? 证 明 你 的 答案 ， 
8. 找到 一 个 在 其 网 络 上 上 成功 地 部 署 支 持 QoS 路 由 天 的 商业 案例 并 为 它们 的 客户 提供 QoS。 
9. 排队 管理 算法 RED 的 提出 是 为 了 缓解 路 由 带 中 的 拥 蹇 ， 有 许多 研究 报告 用 以 分 析 和 改进 RED 算法 。 这 
些 文件 主要 解决 什么 问题 ”研究 群体 为 什么 对 此 这 么 有 兴趣 ”RED 广泛 部 署 在 互联 网 的 路 由 器 上 了 吗 ? 
10. 列举 一 个 企业 所 需要 的 典型 流量 类 ， 然 后 用 分 组 丢失 、 之 宽 、 延 迟 和 抖动 确定 每 个 类 的 QoS。 
11. 在 过 去 的 二 于 年 里 ， 提 出 了 了 许多 成 熟 的 调度 算法 ， 但 它们 中 的 大 多 数 都 是 专 为 有 线 网 络 设计 的 
若 将 这 些 算 法 应 用 在 无 线 网 络 中 为 用 户 提供 QoS 时 ， 试 确定 新 的 需求 或 困难 ， 

12. 描述 使 用 WFQ 来 实现 伸 宽 管理 的 优点 和 缺点 

13. 图 7-17 中 说 明了 一 个 令 牌 桶 是 如 何 操 作 的 。 假 设 为 r=1 单位 /s、p =4 单位 /s、4b=20 单位 并 且 在 
前 15s 没有 分 组 到 达 。 然 后， 在 15s 刚好 有 4 个 分 组 到达， 长 度 分 别 等 于 2、2、10 和 4 个 单位 。 采 
用 上 十 述 假设 ,计算 释放 4 个 分 组 的 时 间 
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因为 在 互联 网 上 发 生 许多 安全 故障 .特别 是 近 儿 年 更 是 如 此 ， 所 以 网 络 安 全 已 经 成 为 一 个 非常 重 
查 的 问题 ， 计 算 机 科学 家 并 不 是 唯一 对 这 些 事件 感 兴趣 的 人 ， 一 般 公 众 也 会 经 常 从 新 闻 中 了 解 到 。 当 
幼稚 的 互联 网 用 户 的 个 人 资料 受到 攻击 并 被 用 于 患 意 目 的 时 ， 他 们 就 可 能 成 为 这 些 意外 事件 的 受害 者 

安全 问题 考虑 起 始 于 数据 安全 ， 然 后 再 将 重点 放 在 访问 安全 上 ， 而 最 近 则 是 系统 安全 。 第 一 个 问 
题 是 有 关 在 公共 互联 网 上 上 传输 的 私人 数据 保护 问题 ， 使 数据 不 会 被 窃听 或 伪造 。 第 二 个 问题 是 基于 一 
个 组 织 或 互联 网 服务 提供 商 的 策略 对 内 部 和 外 部 网 络 访问 的 问题 。 也 就 是 说 ， 它 决定 谁 可 以 访问 什么 
内 容 。 最 后 ， 第 三 个 问题 是 保护 网 络 和 系统 ， 使 它们 不 容易 受到 来 自 互联 网 的 攻击 ,在 本 前 中 ， 我 们 
讨论 主要 问题 以 及 涉及 解决 它们 所 包含 的 设计 问题 

在 互联 网 上 传输 的 数据 是 不 安全 的 ， 因 为 它们 很 容易 在 途中 被 捕获 、 分 析 ， 数据 包含 的 内 容 可 能 
会 泄露 给 第 三 方 、 在 途中 悄悄 被 修改 ， 或 者 被 一 个 恶意 源 进 行 伪 造 。 因此 ， 数 据 安 全 的 关键 是 如 何 保 
护 数 据 防止 被 偷 宕 、 修 改 或 伪造 。 首先， 数据 应 该 加 密 成 乱码 密 文 ， 这 样 仅 有 接收 方才 能 将 其 解密 为 
原始 数据 ， 加 密 和 解密 机 制 必须 是 使 第 一 方 非常 机 难 和 耗费 大 量 时 间 才 能 修 解 的 ,但 是 发 送 方 和 接收 
方 划 能 足够 有 效 地 实现 ， 其次， 传输 的 数据 必须 得 到 认 让 以 证 明 内 容 的 完整 性 

一 个 组 织 或 五 联网 服务 提供 商 可 能 要 根据 自己 的 策略 适当 控制 其 对 互联 网 上 网 络 资源 和 系统 的 访 
问 ， 因 此 ,访问 安全 性 的 关键 问题 是 谁 可 以 访问 什么 内 容 。 确 定 “ 谁 ”可 以 访问 的 信息 可 能 位 于 分 组 
的 网 络 层 和 传输 层 尖 部 ， 如 IP 地址、 端口 号 和 协议 ， 也 可 能 在 分 组 的 有 效 载荷 中 ， 如 URL 网 址 。 管 理 
可 以 在 内 部 网 络 和 外 部 网 络 之 间 部 置 防火 墙 或 过 滤 设 备 ， 并 且 用 一 套 规则 来 执行 控制 策略 。 这 些 设备 
检查 进入 或 外 出 分 组 中 的 信息 ， 这 可 能 是 在 网 络 层 、 传 输 层 或 应 用 层 ， 以 便 确定 是 否 传递 或 丢弃 它们 。 

最 后 ， 让 我 们 看 看 系统 的 安全 ， 攻击 者 出 于 各 种 日 的 可 能 会 尝试 寻找 和 利用 系统 的 漏洞 ， 如 穷 取 
关键 信息 、 控 制 该 系统 发 动 男 一 次 攻击 、 禁 用 重要 的 服务 等 系统 安全 的 关键 问题 是 如 何 识别 各 种 类 
型 的 入 侵 并 保护 系统 防御 它们 的 攻击 。 识 别 包括 检查 攻击 特征 或 发 现 异常 行为 。 检 查 特 征 可 能 漏 掉 未 
知 的 攻击 ( 即 源 报 )， 但 异常 分 析 可 能 导致 误 报 正常 传输 的 行为 异常 ， 所 以 在 误 报 和 漏 报 之 间 必 须 做 
出 权衡 ， 因 此 ,一定 要 设计 精确 的 识别 方法 以 便 最 大 限度 地 减少 误 报 和 淖 报 

8.2 节 、8.3 季 和 8.4 节 分 别 介绍 数据 安全 、 访 问安 全 和 系统 安全 。 在 8.2 节 ， 我 们 提出 几 种 加 密 
算法 说 明 它们 如 何 设计 用 于 保护 数据 ， 以 及 它们 是 如 何在 互联 网 协议 和 体系 结构 (如 安全 套 接 字 层 
(SSL) 和 虚拟 专用 网 络 ( VPN)) 中 实现 的 ,我 们 将 3DES 加 密 算 法 (VHDL 硬件 描述 语言 )、MD5 认 
证 算法 (在 Linux 内 核 中 ) 和 虚拟 专用 网 络 (在 Linux 内 核 中 ) 的 开源 实现 穿插 在 书 中 介绍 。 

在 8.3 节 中 ， 我 们 介绍 了 实现 了 访问 控制 的 防火 墙 和 过 滤 设 备 的 各 种 类 型 。Netfilter/iptables 和 防 
火 增 工具 包 (FWTK) 分 别 作 为 网 络 传输 层 和 应 用 层 防火 墙 的 开源 实现 给 出 。 在 8.4 节 中 , 我 们 学 习 
营 见 的 攻击 技术 和 恶意 程序 ， 然 后 详细 说 明 如 何 区 分 它们 ， 同 时 也 考虑 了 设计 问题 积 权 衡 。 著 名 的 
ClamAV 和 Snort 分 别 作为 杀 病 毒 和 入 侵 检 测 的 开源 实现 。 还 学 习 了 另外 一 个 用 于 反 垃 圾 邮件 的 开源 软 
件 SpamAssassin， 由 于 它 与 ClamAV 和 Snort 很 相似 ， 它 们 都 非常 依赖 于 特征 的 检查 。 

8. 1 一 般 问题 

如 上 上 所 述 ， 安 全 议题 包括 数据 安全 、 访 问安 全 和 系统 安全 。 数 据 安 全 的 基础 是 密码 学 .我 们 首先 
介绍 密码 算法 及 它们 在 保护 公共 网 络 上 私人 数据 传输 中 的 应 用 。 对 于 访问 安全 ， 防 火 墙 系统 是 最 受 欢 
迎 的 设备 。 然 后 介绍 了 不 同类 型 的 防火 墙 和 它们 的 工作 原理 。 如 今 的 互联 网 容易 遭受 各 种 网 络 攻 汕 ， 
因此 ,我 们 人 研究 有 关 各 种 攻击 的 问题 以 及 如 何 保 护 系统 免 受 攻击 。 

8. 1.1 数据 安全 
函 兰 电子 交易 越 来 越 普 及 ， 发 送 银 行业 务 数据 、 密 码 、 信 用 卡号 码 等 敏感 数据 的 安全 问题 已 经 变 
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得 很 严峻 。 这 类 敏感 数据 可 能 被 截获 被 用 于 记录 、 分 析 、 重 放 或 欺骗 的 日 的 。 解 决 这 种 问题 县 有 挑战 
性 ， 如 果 网 络 安全 没有 得 到 保证 ,那么 很 少 人 会 为 上 述 目的 而 使 用 网 络 

在 本 章 中 ,我们 解释 密码 操作 并 列举 了 3 个 虚拟 人 物 : Alice (代表 发 送 方 A)、Bob (代表 接收 方 
B) 和 Trudy (代表 入 侵 者 T)。 例如， 当 Alice 把 无 保护 的 明文 数据 发 送 给 Bob 时 . 中间 人 Trudy 可 以 
轻松 地 阅读 和 收集 他 们 之 闻 的 明文 ， 并 可 以 重 放 、 修 改 或 伪造 这 些 数据 ， 当 假 数 据 到 达 Bob 时 ， 他 认 
为 它们 是 从 Alice 传送 来 的 。 明 文 数 据 应 在 发 送 前 进行 加 密 。 我 们 首先 讨论 加 密 和 解密 技术 

我 们 从 传统 密码 学 理论 开始 。 最 早 提出 来 的 是 对 称 加 密 算 法 或 单 密 钥 加 密 系 统 。 它 使 用 一 个 公共 
密 钥 来 加 密 和 解密 数据 。 由 于 必须 交换 公共 密 钥 ， 所 以 以 有 效 的 发 布 方式 发 布 蜜 钥 很 关键 。1976 年 ， 
Diffie 和 Hellman 提出 了 非 对 称 加 密 方 法 ， 此 方法 利用 不 同 的 密 钥 加 密 和 解密 数据 ， 故 得 名 非 对 称 加 
密 。 因 此 ,在 网 络 上 发 布 密 铀 变 得 简单 而 安全 。 对 应 这 上 酚 种 加 密 系统 开发 了 多 种 有 代表 性 的 系统 ， 例 
如 ， 数 据 加 密 标 准 (DES) 和 国际 数据 加 密 算 法 (IDEA) 是 基于 对 称 加 窗 算 法 的 ， 而 RSA ( 取 自 于 三 
位 发 明 者 姓氏 的 首 字 母 缩写 ) 是 基于 非 对 称 加 密 算 法 。 

假设 发 送 方 Alice 和 接收 方 Bob 位 于 不 同 的 了 地点。 因为 他 们 无 法 面对面 直接 识别 对 方 ， 所 以 他 们 必 
须 相 互 认 证 以 确定 通信 中 彼此 的 身份 。 他 们 还 需要 确保 收 到 的 数据 与 原始 数据 是 相同 的 ， 而 没有 在 网 
络 交易 中 修改 、 其 骗 或 恶意 伪造 。 本 章 将 详细 描述 数字 认证 和 保证 数据 完整 性 的 技术 

介绍 加 密 算 法 后 ， 我 们 将 介绍 链 路 层 、 网 络 层 和 传输 层 的 网 络 协 议 如 何在 加 窗 的 基础 于 实现 网 络 
安全 。 除 了 链 路 层 的 隧道 协议 外 ， 因 特 网 安全 协议 (IPSec) 工作 在 网 络 层 。 在 网 络 层 运行 安全 协议 有 
几 个 优点 。 首 先 ， 不仅 是 运行 在 TCP 之 上 的 应 用 ,还 有 其 他 应 用 也 可 以 拥有 IPSec 提供 的 安全 机 制 
其 次 ， 它 不 容易 遭 到 TCP 之 上 的 常见 攻击 ， 如 伪造 RST 以 断 开 连接 .TIPSec 在 IP 网 络 层 支持 两 种 类 型 
的 安全 协议 : 认证 头 部 (AH) 协议 和 封装 安全 载荷 (ESP) 协议 。 前 者 提供 源 节 点 的 认证 和 数据 的 完 
整 性 。 后 者 支持 完整 的 身份 认证 、 数 据 完 整 性 和 安全 机 制 ， 因 此 它 比 AH 更 复杂 。IPSec 协议 及 其 应 
用 、 虚 拟 专用 网 络 (VPN) 将 在 本 章 中 详细 描述 ， 

安全 套 接 字 层 (SSL) 协议 用 做 一 种 传输 加 密 数 据 的 安全 机 制 ， 该 协议 广泛 应 用 于 安全 的 网 页 浏 
览 和 安全 的 邮件 交付 等 应 用 中 。 虽 然 SSL 对 于 数据 通信 和 是 安全 的 ,但 是 它 仍 然 不 能 为 电子 商务 中 通过 
信用 卡 的 在 线 支付 提供 一 个 完整 的 安全 环境 。 接 收 方 有 机 会 在 其 他 地 方 滥用 信用 卡 信 息 。 因 此 ， 我们 
介绍 安全 电子 交易 (SET) 标准 ， 并 解释 其 操作 。 


8.1.2 访问 安全 

在 外 部 网 络 和 内 部 网 络 之 间 的 边界 上 实施 访问 控制 对 于 网 络 安全 很 重要 。 访 问 控制 一 般 是 双向 的 
限制 从 外 部 到 内 部 的 访问 可 以 保护 内 部 网 络 中 的 主机 不 被 非法 访问 ， 而 限制 从 内 部 到 外 部 的 访问 通常 
是 基于 策略 考虑 的 。 例 如 ， 一 个 组 织 可 能 不 想 让 员工 在 工作 时 间 内 访问 任何 外 部 FTP 站 点 ， 因 此 与 发 
往常 用 FTP 端口 〈 即 端口 21) 的 流量 直接 被 组 织 的 过 滤 设 备 丢 弃 

防火 墙 系统 根据 安全 策略 中 的 规则 过 滤 进 入 和 外 出 的 分 组 来 强制 实施 访问 控制 。 它 们 既 可 以 允许 
也 可 以 拒绝 与 规则 中 分 组 信息 相 匹配 的 分 组 。 因 此 ， 人 快速 规则 匹配 对 于 防火 墙 的 性 能 非常 关键 :如果 
匹配 不 够 快 ， 那 么 防火 墙 本 身 就 会 成 为 瓶颈 。 

防火 墙 系统 通常 有 两 种 类 型 : 基于 分 组 过 滤 的 防火 墙 和 基于 应 用 网 关 的 防火 墙 ， 前 者 通过 查找 网 
络 层 (简称 为 L3) 和 传输 层 (简称 为 4) 头 部 中 的 字段 过 滤 分 组 ， 因 此 它 工 作 在 网 络 层 和 传输 层 . 
因为 这 些 字段 通常 是 在 固定 位 置 的 几 个 字 和 节 ， 所 以 过 滤 速 度 快 。 但 是 访问 控制 仅 查 看 13 和 14 的 信息 
可 能 是 不 够 的 ， 因 为 它 可 能 将 服务 隐藏 在 众所周知 端口 以 外 的 端口 。 例如， 如 果 FTP 服务 是 在 1234 端 
口 提供 的 ， 然 后 阻塞 对 端口 21 的 访问 就 起 不 到 作用 。 因 此 ， 如 果 要 求 精确 过 滤 ， 那 么 查找 应 用 特征 有 
时 是 必要 的 ， 这 是 指 基于 网 关 的 防火 墙 。 此 外 ， 如 果 策 略 与 分 组 内 容 相 关 ， 那 么 就 必须 检查 应 用 信息 。 
例如 ， 黄 个 允许 和 禁止 请 求 的 网 址 可 能 发 向 端口 80。 既 不 限制 也 不 打开 端口 80 也 可 以 工作 ,解决 办 法 
是 将 请 求 与 一 套 黑 名 单 或 白 名 单 的 URL 进行 匹配 。 

检查 应 用 内 容 当 然 不 会 是 免费 的 。 首 先 ， 分 组 可 能 需要 组 装 起 来 以 便 恢复 应 用 内 容 用 于 检查 。 其 
次 ， 防 火 墙 可 能 需要 保留 连接 状态 来 反映 每 条 连接 的 状态 。 青 次 ， 扫描 分 组 内 容 查 找 应 用 特征 比 匹 配 
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分 组 头 部 问 定 字段 更 为 复杂 ， 因 此 性 能 问题 就 更 加 重要 。8.3 节 中 介绍 2 个 开源 实现 的 例子 : 基于 分 
组 过 滤 的 防火 墙 ，Netfilter 和 基于 应 用 网 关 的 防火 增 ， 防火 墙 工 具 包 (FWTK) 


8. 1.3 系统 安全 

协议 、 软 件 和 系统 的 设计 缺陷 导致 出 现 了 黑客 可 以 利用 的 安全 满 润 ， 黑 客 可 能 和 人 侵 一 个 脆弱 的 系 
统 窃 取 秘密 信息 、 使 系统 骨 溃 、 获 得 系统 管理 员 权 限 以 及 传播 恶意 程序 ， 为 了 系统 的 安全 ， 这 些 恶意 
的 行为 必须 得 到 有 效 检 测 和 控制 。 鉴 于 每 天 有 大 量 的 网 络 流量 ， 网 络 管理 员 不 可 能 手动 检查 流量 日 志 
文件 以 查看 发 生 了 什么 。 因 此 震 要 部 署 入侵 检 测 (或 防御 ) 系统 来 分 析 流 量 来 检测 攻击 。 它 可 以 产生 


指示 攻击 类 型 及 相关 信息 (例如 ,攻击 的 来 源 ) 的 警报 ， 也 可 以 在 检测 到 攻击 时 就 加 以 阻塞 来 防止 攻 
击 。 检 测 可 能 是 基于 一 套 规则 ， 该 规则 描述 或 签名 已 知 攻击 的 攻击 场景 或 特征 ,或 者 寻找 流量 中 的 异 
常 。 前 者 可 能 忽略 未 知 攻击 (所 谓 的 漏 报 )， 因 为 没有 规则 可 以 描述 这 种 攻击 。 后 者 可 以 发 现 未 知 攻 


击 ， 但 也 可 能 更 容易 产生 误 报 ， 因 为 正常 流量 可 能 会 表现 得 像 异 常 流量 。 这 两 种 技术 之 间 要 有 一 个 权 
衡 ， 此 外 ， 入 侵 检 测 通常 是 用 于 取证 ， 因 为 它 只 监测 流量 却 没 有 阻止 攻击 。 如 果 系 统 太 慢 而 来 不 及 处 
理 流 量 ， 那 么 它 就 会 释 奔 一 些 分 组 ， 这 就 可 能 失去 了 对 少数 可 能 攻击 的 警报 ， 但 是 这 不 会 损害 正常 的 
通信 : 另 一 方面 ， 入 侵 防御 系统 部 署 在 进 、 出 流量 的 网 关上 -。 它 能 够 阻止 检查 刘 的 攻击 ， 但 是 如 果 它 
的 速度 来 不 及 处 理 流 量 ， 它 就 会 成 为 系统 性 能 的 瓶 多 ， 并 且 双 向 wa 

网 上 狗 狂 传播 的 严 意 软 件 也 称 为 恶意 程序 ， 它 已 成 为 互联 网 的 一 个 主要 威胁 。 这 些 程序 可 能 对 受 
感染 的 系统 造成 损害 ， 如 会 使 服务 崩 演 或 机 密 信 息 被 鲫 取 。 它 们 可 能 看 起 来 与 其 他 正常 程序 没有 什么 
区 别 ， 基 至 在 用 户 没有 察觉 的 情况 下 淤 入。 检测 它们 的 一 个 常用 方法 是 扫描 这 些 恶 意 程序 的 特征 代码 ， 
但 是 随 着 它们 将 自己 以 各 种 方式 隐 距 起 来 市 使 检测 变 得 因 难 。 例 如 ,它们 可 以 用 各 种 密 钥 加 密 代 码 ， 
仪 在 运行 它们 时 才 解 密 代 码 。 因 此 ， 扫 描 可 执行 的 特征 匹配 就 变 得 无 效 。 一 种 可 能 的 解决 方案 是 实际 
运行 囊 蕊 软件 并 观察 其 行为 。 然 而 ， 涉 意 软 件 可 能 配备 了 多 种 反 检 测 机 制 ， 如 检测 到 存在 分 析 程 序 并 
发 现 有 人 试图 分 析 它 时 就 假装 表现 恨 好 我 们 也 将 在 8.4 节 中 研究 这 些 问 题 


8.2 数据 安全 

8. 1 节 中 讨论 了 密码 学 的 演变 及 其 应 用 。 本 节 首 先 深 入 研究 密码 Ce 对 于 对 称 密 钥 系 统 ， 
我 们 介绍 数据 加 密 标 准 (DES) 、 三 重 DES (3DES) 和 高 级 加 密 标 准 (AES) ， 对 于 非 对 称 密 钥 加 密 系 
统 ， 我 们 介绍 RSA (Rivest，Shamir 和 Adleman )， 接 下 来 ， 我 们 介绍 用 a 的 消息 摘要 算法 5 
(MD5 )。 最 后 ,介绍 如 何 将 密码 学 应 用 到 虚拟 专用 网 络 (YPN)， 包括 链 路 层 的 点 到 点 隧道 协议 
(PPTP) 和 第 2 层 隧道 协议 (L2TP) 、 网 络 层 的 IP 安全 (IPSec) ， 以 及 传输 层 的 安全 套 接 字 层 (SSL) 
和 安全 电子 交易 〈SET) ， 开 源 实现 的 例子 是 3DES、MD5 和 IPSec 


8.2.1 密码 学 原理 


图 8-1 显示 数据 加 密 和 解密 的 过 程 。 为 了 实现 数据 安全 性 ，Alice 在 传输 之 前 加 密 数 据 ， 虽然 Trudy 
截获 了 加 密 数 据 ， 但 她 不 能 得 到 原来 的 明文 。 因此， 数据 加 密 保 护 了 原始 文本 的 机 密 性 ，Bob 接收 到 
加 密 的 数据 后 ， 利 用 解密 密 钥 就 能 够 理解 来 自 Alice 的 明文 。 

Alicc Bob 


E 


如 果 《加 密 密 钥 == 解 密 密 钥 ) 
“这 是 一 种 对 称 密 钥 系统 ” 


1 | 
加 密 密 铀 ©@=—> 香 则 ©@=—> 
= oa © 下 











图 8-1 数据 的 加 密 和 解密 
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对 称 密 钥 系 统 采用 一 个 共同 的 密 钥 来 加 密 和 解密 文本 ， 而 在 非 对 称 密 钥 系统 中 加 密 和 人 解密 的 密 钥 

tie di 密 钥 ， 所 以 密 钥 必须 以 安全 的 方式 从 一 个 人 发 送 到 男 一 个 人 ， 否 
pi 泄漏 给 未 经 授权 的 人 。 简 单 地 加 密 密 钥 然后 再 发 送 会 面临 与 数据 加 密 相同 的 问题 。 密 

ge ee Me And ess ree rt 使 用 KDC 的 著名 例子 就 是 Kerberos 
ee. 其 中 工作 中 的 2 个 实体 可 以 彼此 标识 。 然 而 ，KDC 本 身 必须 是 可 信和 的 ， 它 可 能 成 为 一 个 单 点 故 
障 。 因 此 ， 利 用 非 对 称 密 钥 系 统 作为 解决 方案 。 加 密 和 解密 密 钥 是 配对 的 。Alice 使 用 配对 中 的 一 个 密 
钥 加 密 数 据 ， 而 只 有 Bob 拥有 另 一 个 密 钥 来 解密 。 因 此 ， 就 不 需要 将 Bob 的 密 钥 分 发 给 Alice。 虽 然 这 
个 系统 看 起 来 很 理想 ， 但 关键 问题 是 加 密 和 解密 的 计算 很 慢 。 因 此 在 实践 中 ， 非 对 称 密 钥 系 统 用 于 对 
称 密 钥 系统 中 密 钥 的 分 发 。 两 个 对 等 拥有 了 对 称 密 钥 后 ， 它 们 就 可 以 使 用 密 钥 传 送 大 量 的 数据 。 安 全 
和 效率 从 而 得 到 了 平衡 。 

对 称 密 钥 系统 

对 称 密 钥 系统 的 一 个 著名 例子 是 美国 政府 在 1977 年 采取 的 确保 数据 安全 的 数据 加 密 标准 (DES ) 。 
DES 使 用 一 个 56 位 对 称 密 钥 用 于 加 密 和 解密 。 国 际 数据 加 密 算法 (IDEA) 也 使 用 对 称 密 钥 系统 。 目 前 ， 
56 位 DES 算法 仍然 很 受 欢 迎 ， 虽 然 可 以 使 用 一 种 更 安全 的 系统 ， 即 112 位 的 DES 算法 ， 但 仪 限 于 美国 。 

56 位 DES 通过 一 个 56 位 密 钥 加 密 每 个 64 位 的 数据 块 单元 ， 并 且 得 出 单字 母 的 结果 ; 因此 ， 如 果 
DES 使 用 相同 的 密 钥 加 密 相同 的 明文 数据 ， 就 将 获得 相同 的 加 密 数 据 。DES 的 操作 包括 置换 密码 和 替 
代 计 算 中 重复 16 次 迭代 的 密码 。 图 8-2 显示 了 DES 操作 原理 ， 其 描述 如 下 : 首先 ,将 明文 分 割 成 64 
位 的 数据 块 。 每 个 块 了 =14t…iw ， 执 行 初始 移 位 获得 T,，T 是 tsgtsolwz…tatisti， 从 而 形成 两 个 32 位 的 
块 ， RR 和 L， 如 下 














To 三 LRo 
这 里 
Lo = tsetsots. .. tiets 
R, = = tsrtagtal: :tisty 
64 位 
输入 
和 














初始 移 位 
IP 


16 次 迭代 














图 8-2 DES 的 加 密 过 程 
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所 和 RR, 的 数据 块 作为 下 一 次 迭代 的 输入 
Li=R, 
及 = 六 四 f (R,, K,), 
其 中 ，K 是 从 56 位 密 钥 中 导出 的 。 

此 后 ,结果 就 变 成 7 = 广 R 将 56 位 密 钥 预先 计算 为 16 个 48 位 密 钥 : KK;,...，Kis。 图 8-3 
显示 了 /A(R,。，K,) 的 处 理 过 程 ， 其 中 32 位 的 RO 和 48 位 的 大 是 加 密 输 入 。 首 先 ，32 位 R 通 过 E 
CR) 操作 扩展 获得 一 个 48 位 的 结果 。 其 次 ，48 位 (Ro) 和 48 位 天 都 执行 XOR 操作 来 获得 一 个 
48 位 的 结果 ， 将 它 分 制 为 8 个 6 位 输入 ，B,，B,，... ，B 用 于 下 面 的 替代 ， 

2 64 位 
人 密 钥 



































了 3 B, B, B, 
DID 

导 mn 本 (Cs S, 

[ [ [ 

Si (8B) :38,(B,) SB SB | SB) SB BY (0) 
© 
32 位 


图 8-3 f (R,,，K,) 的 计算 过 程 

S, 替代 后 ， 就 获得 8 个 4 位 的 块 ，5,(B,)。 然 后 计算 结果 执行 一 种 32 位 置换 的 操作 得 到 f(R,，K, )， 
最 后 R 也 可 以 通过 名 f(R,，K,) 来 获得 

重复 16 次 同样 的 迭代 ， 即 +1 R+1L R,，i=0，...，15， 获 得 7 = LeRis。 这 个 计算 将 进行 
道 初始 换 位 获得 64 位 加 密 的 数据 。 将 加 密 过 程 逆 向 ， 就 可 以 从 加 密 数 据 中 解密 出 明文 

RSA 数据 安全 公司 曾经 提供 10 000 美元 奖励 给 任何 能 够 从 经 过 56 位 DES 算法 加 密 的 文本 中 解码 
出 明文 的 人 。 后 来 一 个 团队 在 4 个 月 内 解密 了 加 密 数 据 ， 另 一 个 人 在 1999 年 最 新 一 轮 解密 DES 挑战 中 
在 22 个 小 时 内 解密 。 因 此 ， 如 果 数 据 是 非常 重要 的 ， 利 用 DES 加 密 是 不 安全 的 。 对 于 普通 的 应 用 ， 可 
以 认为 它 是 足够 安全 的 。 多 重 DES 算法 比 单 DES 系统 更 安全 ， 因 为 攻击 者 可 能 需要 在 重复 迭代 中 找到 
更 多 的 密 钥 。 例 如 ， 美 国政 府 推荐 三 重 DES (3DES) 和 128 位 DES 算法 作为 美国 统一 的 加 密 和 解密 标 
准 。 假 设 K, 、K, 和 kK 是 3 次 迭代 中 的 3 个 密 钥 。 加 密 和 解密 的 过 程 是 

加 密 : E, (D,, (E, (P))) =C 

饰 密 ; 为， 如。 (DEY)Y) ER 
其 中 PP 是 明文 ,， C 是 密 文 ,E 是 DES 加 密 算 法 ，D 是 DES 的 解密 算法 。 所 有 的 过 程 都 由 DES 运算 组 
成 ， 并 能 重用 现 有 的 DES 也 数 块 实现 ， 开源 实 现 8. 1 描述 一 个 3DES 实现 
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开源 实现 8. 1: 硬件 3DES 
概述 

这 里 我 们 主要 介绍 3DES 的 硬件 实现 ， 因 为 它 是 一 种 加 束 3DES 计算 的 常见 方法 。3DES 计算 涉及 
大 量 的 位 级 操作 ， 如 替代 和 置换 (参见 对 DES 计算 的 介绍 )。 如 果 3DES 计算 采用 软件 实现 ， 那 么 每 个 
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操作 将 采取 多 条 指令 来 完成 ， 因 为 固有 的 操作 数 通常 是 包括 多 字 节 的 字 。 此 外 ,硬件 实现 允许 在 数据 
块 上 并 行 地 操作 。 因 此 在 硬件 上 实现 3DES 计算 会 更 加 自然 。 

在 OpenCores 网 站 上 的 开源 项 目 (www. opencores. org) 致力 于 以 VHDL 语言 来 实现 3DES。 我 们 利 
用 该 项 目 作为 例子 来 解释 开源 实现 ， 它 支持 3 个 64 位 的 DES 密 钥 ， 并 与 NIST 的 FIPS46 -3 标准 兼容 。 
由 于 3DES 计算 3 次 DES， 所 以 将 硬件 设计 的 每 个 阶段 的 组 件 映射 到 DES 运算 的 功能 模块 上 ， 如 S 盒 
用 于 赫 代 ， 而 也 合用 于 置换 。 设计 直观 简单 ， 依 次 使 用 大 量 的 信号 分 配 实现 前 面 提 到 的 操作 。 

框图 

图 8-4 说 明了 主要 函数 模块 。DES 计算 的 3 个 模块 是 按 顺 序 级 联 ， 利 用 3 个 不 同 的 密 钥 进行 计算 
的 。 每 个 模块 的 数据 输出 是 下 一 个 模块 的 输入 。 在 每 个 模块 内 部 是 密 钥 扩展 、 替 代 、 置 换 等 函数 模块 。 
它们 之 间 的 关系 可 以 从 图 8-2 和 图 8-3 中 的 计算 反映 出 来 。 
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图 8-4 在 3DES 模块 中 的 函数 模块 


在 主 函 数 模块 接口 中 的 信号 在 表 8-1 中 列 出 。 
注意 ， 即 使 每 个 密 钥 的 长 度 是 64 位 ， 但 8 位 用 于 校 验 并 在 加 密 / 解 密 计 算 前 丢弃 。 每 个 密 钥 实际 
上 只 有 56 位 。 



































表 8-1 在 主 函 数 模块 接口 中 的 信号 

信 号 方向 描述 信 号 方向 描 述 
KEY1_ IN [0: 63] IN 第 一 个 64 位 密 钥 LDDATA IN | 指示 数据 准备 好 
KEY2_ IN [0: 63] IN 第 二 个 64 位 密 钥 RESET IN 重 置 为 初始 状态 
KEY3_ IN [0: 63] IN 第 三 个 64 位 密 钥 CLOCK IN 同步 时 钟 输入 
FUNCTION__ SELECT IN 加 密 或 者 解密 DATA_OUT [0: 63] | OUT | 64 位 加 密 /解密 数据 
LDKEY IN 指示 密 钥 准 备 好 OUT_READY OUT | 输出 数据 准备 好 

算法 实现 


一 旦 初始 化 ， 主 函数 块 〈tdes _ top. vhd) 设置 下 一 个 状态 WaitKeyState， 并 读 取 FUNCTION 
SELECT 来 确定 是 否 执行 加 密 或 解密 。 然 后 模块 等 待 密 钥 直到 它们 可 用 (LDKEY = =1)， 进 入 Wait- 
DataState， 其 中 模块 等 待 数 据 ， 直 到 它们 可 用 (LDDATA = =1)。 用 于 初始 化 的 代码 如 下 所 示 。 





i weset (ss “二 biten 
nextstate <= WaitKeyState; 
lddata internal = SO: 
out ready <= “Os 
fsel internal <s Fution select? 
fsel internal inv <= Mot function select; 


tl1se 
data out data out interrnal; 


des out rdy internal; 


Ll 


out ready < 
case nextstate is 

when WaitKeyState => 

if ldkey = ‘0 then 
nextstate Cs 

else 

// read keys here; 
nextstate 

end if; 


WaitKeystate; 


the codes not shown; 
<= WaitDatasState; 
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when WaitDatastate => 
if lddata = “0* then 
nextstate <= WaitDatastate; 
ld data internal < “OQ": 
else 
// read data here; the codes not Shown' 
end 1f; 
end if; 


在 设计 中 有 3 个 DES 模块 (在 模块 中 名 为 des_ cipher top)， 每 个 分 别 读 取 3 个 密 钥 。DES 的 
操作 是 在 e _ expansion function. vhd\P box.vhd 和 s box. vhd 中 实现 。 例 如 ， 替 代 操 作 进一步 
分 为 8 个 模块 ， 从 sl_box. vhd 到 s8_box. vhd， 因 为 有 8 个 这 样 的 替代 (如 图 8-3 所 示 )。 在 sl 
box. vhd 中 替代 的 代码 段 如 下 所 示 。 


begin 


SPO <= "LTI10” When A = XxX"0" else 

“0000” when A = x"1l” else 

"0100” When A = xX"2” else 

i111” when A = XX"3” else 

"1L101” when A = x"4” else 

“0111” when A = x"5” else 

“0001” when A = x"6” else 

// all combinations of 6-bit A's 

end 
为 了 简单 ， 我 们 不 深入 理解 每 个 模块 ， 将 细节 留 给 读者 自己 学 习 。 
练习 


1. 如 果 它 在 软件 中 实现 ， 指 出 设计 中 的 哪些 组 件 可 能 是 低 效 的 。 

2. 在 代码 中 查找 最 初 的 56 位 密 钥 在 16 次 迭代 中 的 每 一 次 是 如 何 转 化 为 48 位 密 角 的 

尽管 DES 和 3DES 可 以 很 容易 地 在 硬件 中 实现 ,但 由 于 其 位 级 操作 ， 所 以 它们 在 软件 中 的 实现 速 
度 很 慢 。 高 级 加 密 标准 (AES) 算法 可 以 更 好 地 在 软件 中 实现 。 加 密 / 解 密 过 程 中 的 替代 和 置换 都 是 字 
节 级 的 。 操 作 更 适合 软件 实现 ， 因 为 交换 两 个 字 节 或 更 换 软件 中 一 个 字 节 的 内 容 很 容易 。AES 算法 带 
有 128 位 、192 位 和 256 位 的 密 钥 。 除了 AES 的 效率 外 ， 它 比 DES 更 安全 ， 因 为 其 庞大 的 密 钥 空间 
即使 只 有 128 位 的 密 钥 也 需要 很 大 的 努力 才能 破解 它 。 因 此 ，AES 用 于 数据 的 安全 是 足够 的 。 

非 对 称 密 钥 系统 

对 称 密 钥 系统 的 加 密 和 解密 使 用 相同 的 密 钥 ， 但 密 钥 应 该 首先 以 一 ee 非 对 称 密 
钥 系 统 (或 公共 密 钥 体系 ) 利用 一 对 密 钥 分 别 进 行 加 密 和 解密 数据 。 一 钥 是 众所周知 的 ， 即 公 
钥 ; 另外 一 个 密 钥 必 须 是 私有 的 ， 即 私 钥 。 例 如 ， 在 图 8-5 中 ，Alice 大 用 0 \ 钥 进行 加 密 ，Bob 
使 用 他 的 私 钥 解密 加 密 过 的 数据 。 因 为 只 有 Bob 有 私 钥 ， 所 以 其 他 人 就 不 能 解密 加 密 过 的 信息 ， 即 使 
公 钥 是 众所周知 的 。 此 外 ，Alice 也 可 以 唯一 地 确定 利用 她 的 私 钥 加 密 数 据 ， 因 为 没有 其 他 人 具有 她 的 
私 钥 (参见 8.2.2 节 )。 


Alice Bob 
明文 ， m 了 明文， mm 


m=Deop (Epo (2) ) 


Bob 的 公 铀 Bob 的 私 钥 


c=Epoy (m) 
加 密 的 数据 


ce=Epa (mi) 
图 8-5” 非 对 称 密 钥 加 密 
RSA 是 最 著名 的 非 对 称 密 钥 算法 ， 它 根据 麻 省 理工 学 院 3 个 教授 Ronaid Rivest、Adi Shamir 和 
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Leonard Adleman 的 名 字 命 名 的 。 虽 然 RSA 解决 了 密 钥 的 分 配 问 题 ， 但 其 计算 复杂 度 很 高 ， 因此 不 适 于 
Se f 通 数据 。 因 此 ，RSA 经 常用 于 密 钥 的 发 布 或 身份 1 
验证 ， 而 利用 对 称 密 钥 系统 加 密 和 解密 大 量 数据 。 图 8-6 描述 人 
了 RSA 中 选择 公 钥 和 私 钥 的 过 程 ; 
1) 选择 两 个 非常 大 的 素数 ，m 和 4。 素数 越 大 ， 就 越 难 | 
破解 ， 计 算 时 间 也 将 显著 增加 。RSA 实验 室 建议 选 定 的 素数 2. 
要 大 于 TO np*q 
2) 计算 pxg 和 (p-1) x (9-1) 分 别 得 到 nn 和 z， 即 i 
n=pxyg 和 z= (p=l) x (gw=1)o | 
3) 选择 一 个 。e 作 为 公共 密 钥 ， 它 要 小 于 n 并 且 与 z 互 素 。 各 
a 计算 出 一 个 值 d 作为 私 钥 ， 这 里 ex d -1 能 够 被 z 所 人 
因此 ，Bob 可 以 将 公 钥 (nm，e) 分 配给 任何 人 ， 然 后 下 
Alice 可 以 使 用 此 密 钥 来 加 密 数 据 ， 而 Bob 可 以 使 用 自己 的 私 4. 
钥 (n，d) 来 解密 数据 。 例 如 ，Alice 想 要 向 Bob 发 送 位 流 m， 找到 一 个 数 q, 满足 ed-1 | 
这 里 m<n。Alice 首先 计算 m*， 然 后 再 除 以 n 得 到 余数 c， 这 要 刚好 被 :整除 
是 密码 或 加 密 过 的 数据 。 一 旦 Bob 收 到 加 密 过 的 数据 c | | 
， 他 计算 然后 除 以 得 到 余数 mm， 其 中 m 是 原始 明文 。 5 
i 列 方程 总 结 了 人 处理 过 程 : 获得 公 钥 (n.e) 
c=m'modn// 使 用 公 钥 (n，e) 将 明文 加 密 成 密 文 数据 c。 和 私 钥 (n.d) 
m=c modn// 使 用 私 钥 (n，d) 来 解密 加 密 过 的 数据 ， 然 
后 得 到 明文 mr， 图 8-6 RSA 公 钥 和 私 钥 的 选择 过 程 


下 一 步 ， 我 们 给 由 一 个 简单 的 例子 来 描述 处 理 过 程 。 首 先 ，Bob 选择 p=11 和 g=17， 然后 计算 
pxg (n=187) 和 (p-1) x (g-1) ( 即 z=160)。 其 次 ， Bob 选择 23 作为 e， 其 中 e 是 z 的 一 个 素 
数 。 最 后 ，Bob 计算 (z+1) :ve 得 到 d=7。 因 此 ，Bob 将 公 钥 分 给 Alice (n=187，e=23)。 她 使 用 公 
钥 加 密 明 文 m 得 到 加 密 数 据 c。Bob 收 到 加 密 数 据 “ 后， 他 用 自己 的 私 钥 (n=187, d=7) 解密 。 

假设 Alice 将 明文 “clap” 发 送 给 Bob。 她 首先 将 字符 A ~Z 映射 为 数字 1 ~26, 得 到 “c” =3、 
“1”=12、“a”=1、“p”=16。 图 8-7a 显示 了 利用 公 钥 (n=187,，e=23) 的 加 密 过 程 ， 也 本 二 显 
了 利用 私 钥 (n=187，d=7) 的 解密 过 程 。 
































明文 me c=m: mod n 
请 94 143 178 827 181 
6.6247E+24 177 
‘a 1 1 
Pp 4.9517E+27 169 

a) ”Alice 使 用 公 钥 (n=187,e=23) 加 密 明 文 “clap” 的 过 程 
加 过 密 的 文本 , c 明文 
181 6.3642E+15 3 
177 5.4426E+15 全 
| sa 
169 3.9373E+15 “p’ 





b) ”Bob 使 用 秘密 私 钥 (n=187,，d=7) 的 解密 过 程 
图 8-7 
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加 密 和 解密 过 程 有 指数 运算 ， 导致 较 高 的 计算 复杂 度 。 软 件 实 现 DES 的 效率 大 约 比 RSA 快 100 
倍 ， 在 人 硬件 中 实现 要 快 10 ~ 10 倍 。 因 此 ， 大 多 数 应 用 会 将 对 称 和 非 对 称 密 钥 系统 结合 起 来 使 用 。 发 
送 者 Alice 随机 生成 一 个 会 话 (对 称 ) 密 钥 将 明文 加 密 成 密 文 c。 然 后， 她 使 用 Bob 的 公 钥 ( 非 对 称 ) 
加 密会 话 密 钥 ， 并 将 发送 给 Bob。 当 Bob 接收 到 < 后 ， 他 首先 使 用 自己 的 私 钥 ( 非 对 称 ) 来 解密 加 密 
过 的 会 话 密 钥 ， 然 后 推导 出 未 来 的 加 密 和 解密 用 的 会 话 密 钥 ， 因 此 ， 密 钥 分 配 过 程 是 安全 的 并 且 产 生 
有 效率 的 数据 传输 。 

在 实践 中 ,用 户 的 公 钥 可 以 从 认证 中 心 (CA) 得 到 ，CA 是 一 个 维护 公 和 钥 的 可 信和 性 和 用 户 身份 的 
组 织 。 在 这 种 机 制 下 ， 用 户 首先 必须 注册 他 的 公 钥 ， 市 CA 必须 认真 核实 用 户 的 身份 ; 否则 就 很 容易 
受到 破坏 。 公 钥 和 用 户 的 身份 信息 将 包含 在 由 CA 颁发 的 数字 签名 让 书 中 。 因 此 ， 其 他 用 户 就 可 以 从 
数学 证 书 验证 用 户 的 身份 ， 并 且 确 保 公 钥 是 真 的 来 自 那 个 用 户 


行动 原则 : 安全 的 无 线 信道 

实质 上 ， 无 线 网 络 在 广播 帧 。 保 护 无 线 传输 信道 安全 是 至 关 重 要 的 ， 否 则 任何 人 都 可 以 很 容易 
地 嗅 探 到 传输 的 流量 。 在 无 线 局 域 网 技术 中 ，IEFE 802. 11 配备 了 有 线 对 等 保密 (WEP) 标准 ， 保 
护 无 线 介 质 中 的 数据 。 在 该 标准 中 ， 数 据 流 使 用 RC4 算法 加 密 。RC4 相当 简单 。 在 发 射 站 ，RC4 将 
数据 流 与 密 钥 流 异 或 生成 密 文 流 。 在 接收 站 ，RC4 将 加 密 流 与 完全 相同 的 密 钥 流 异 或 ， 以 恢复 原始 
数据 。 发 射 站 和 接收 站 可 以 同步 密 钥 流 ， 因 为 两 者 都 使 用 相同 的 种 子 利 用 伪 随 机 数 发 生 器 产生 密 
钥 流 。 

由 于 设计 上 的 缺陷 ，WEP 不 是 很 安全 ，2001 年 8 月 ,一 篇 由 Fluhrer 等 人 发 表 的 题 为 “Weakness 
in the Key Scheduling Algorithm of RC4” 的 论文 来 攻击 WEP。 简 而 言 之 ， 很 可 能 从 WEP 密 钥 一 部 分 的 弱 
初始 化 向 量 (IV) 中 导出 密 钥 流 的 内 容 。1IV 值 是 以 明文 传输 的 ， 通 过 收集 足够 多 的 帧 ， 密 钥 流 就 可 以 
从 帧 中 的 弱 JV 值 恢 复出 来 。 一 个 称 为 AirSnort 的 程序 (airsnort. shmoo. com) 公开 提供 这 种 攻击 的 
实现 

为 了 解决 这 种 严重 的 缺陷 ，Wi-Fi 联盟 推出 Wi-Fi 保护 接 入 (WPA) 规范 ， 它 后 来 扩展 成 为 
IEEE 802. 11i，2004 年 得 到 批准 。 在 802. 11i 中 ， 高 级 加 密 标准 (AES) 成 为 无 线 数据 加 密 的 方法 ， 
而 IEEE 802. 1X 用 做 身份 验证 机 制 。 这 个 新 标准 在 许多 新 产品 中 提供 ， 使 得 无 线 局 域 网 成 为 更 安全 
的 环境 。 


8. 2.2 数字 签名 和 消息 认证 

除了 数据 加 密 外 ，Bob 还 需要 确保 从 Alice 处 发 来 的 数据 是 真实 的 ， 因 为 入 侵 者 Trudy 可 能 会 假装 
成 Alice 发 送 数据 。 在 非 对 称 密 钥 系统 中 ， 数 字 签 名 是 最 流行 的 身份 认证 方法 。 将 数字 签名 应 用 到 传输 
数据 有 3 个 优势 : 1) 接收 者 能 够 确保 数据 确实 是 来 自发 送 者 的 ; 2) 发 送 者 不 能 否认 传输 ; 3) 没有 
人 可 以 修改 接收 到 的 数据 ， 从 而 得 到 了 数据 的 完整 性 ， 

非 对 称 密 钥 系 统 和 散 列 函 数 可 以 用 于 实现 数字 签名 。 在 图 8-8 和 图 8-9 中 ， 当 Alice 向 Bob 发 送 明 
文 时 ， 她 就 使 用 一 个 数字 签名 来 认证 自己 。 在 图 8-8 中 ，Alice 首先 计算 明文 ， 通过 散 列 函数 导出 一 个 
独特 的 散 列 值 “12340782” ,然后 用 她 的 私 钥 加 密 散 列 值 ， 并 发 送 加 密 文 本 “2??11??11”， 即 Aliee 的 
数字 签名 与 明文 一 起 发 送 给 Bob。Bob 收 到 Alice 的 明文 和 数字 签名 后 ， 利 用 Alice 的 公 钥 解 密 数字 签名 


值 ， 如 果 两 个 散 列 值 是 相等 的 ，Bob 就 可 以 肯定 明文 是 由 Alice 发 送 的 。 换 句 话 说， 数字 签名 可 以 实现 
以 下 3 个 功能 : 

Alice 不 能 否认 她 已 发 送 了 此 文件 ， 因 为 她 使 用 了 自己 的 私 钥 加 密 了 散 列 值 。 

Bob 不 能 修改 接收 到 的 文件 ， 否 则 两 个 散 列 值 将 不 同 

该 文件 没有 被 修改 ， 因 为 它 包含 了 相同 的 散 列 值 “12340782”。 

如 果 发 送 方 使 用 密 钥 加 密 明 文 的 散 列 值 ， 同 时 接收 方 也 使 用 相同 的 密 钥 解密 加 密 过 的 散 列 值 以 便 
进行 验证 ， 加 密 的 散 列 值 称 为 消息 认证 代码 (MAC) 。 这 个 概念 类 似 于 数字 签名 ， 但 用 来 加 密 和 解密 
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散 列 值 的 密 钥 是 对 称 的 。 因 此 ， 接 收 方 必须 事先 共享 密 钥 。MAC 机 制 可 以 提供 数据 完整 性 和 认证 , 但 


是 可 抵赖 的 ， 因 为 任何 拥有 密 钥 的 人 都 可 以 生成 其 他 消息 的 MAC。 


明文 散 列 函数 ”一 >] 12340782 


唯一 的 散 列 值 































列 值 





(a) Alice 不 能 否认 发 送 了 该 文件 ， 
因为 她 使 用 了 她 的 私 钥 加 密 了 散 
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Alice 的 私 钥 





加 密 的 文本 
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带 有 数字 签 
名 的 明文 











图 8-8 Alice 使 用 数字 签名 发 送 文 件 




















放生 直 二 在 归 王国 这 下 -O) ww 12340782 

















明文 Alice 的 公 铀 











| 明文 。 一 一 > 散 列 函数 -一 =| 12340782 


























eT Bob 不 能 修 改 接收 到 的 文档 ; 
否则 , 这 两 个 输出 值 将 会 不 同 


唯一 的 散 列 值 了 


如 果 这 两 个 输出 值 相同 ， 
那么 文档 就 是 Alice 发 送 的 ; 
否则 , Bob 就 不 能 确认 

是 Alice 发 送 的 


(0) 因为 有 相同 的 散 列 值 “12340782”， 
所 以 文档 没有 被 修改 


图 8-9 Bob 确定 收 到 的 带 有 数字 签名 的 文件 是 否 来 自 Alice 
我 们 已 经 提 到 ，Alice 应 该 为 相应 的 明文 产生 一 个 散 列 值 。 散 列 值 称 为 消息 摘要 ( MD)。 消 息 摘要 
的 功能 就 是 保证 数据 完整 性 。 流 行 的 散 列 函数 包括 MD4 、MD5 和 安全 散 列 算法 (SHA) 等 。MD4 和 
MDS 由 Ron Rivest 于 1992 年 提出 ; MD5 是 最 普遍 采用 的 算法 ， 用 来 生成 128 位 的 消息 摘要 。 美 国政 府 





使 用 SHA -1， 它 可 以 产生 160 位 的 消息 摘要 ， 它 比 MD5 更 强大 。 


开源 实现 8.2: MD5 

概述 

MD5 常用 于 许多 安全 应 用 中 ， 用 于 验证 数据 是 否 被 偷偷 ee 
经 过 数据 计算 导出 MD5 值 。MD5 的 一 个 开源 实现 在 md5. c 中 ， 
广泛 使 用 的 Linux 2. 6. x 内 核 源 的 crypto 目录 下 。 Re 
消息 每 批 读 取 512 位 后 ，MD5 算法 不 断 地 更 新 128 位 的 状态 ( 即 4 个 
2 位 字 )。 在 最 后 一 次 迭代 中 ， 最 后 一 批 数 据 如 果 比 $12 位 短 ， 就 需 
充 至 512 位 ， 
框图 
在 md5. c 中 的 3 个 主 函数 分 别 为 md5 init()、mqd update() 和 
md final()。 首 先 , 初始 化 128 位 的 状态 。 其 次 ， 在 每 次 选 代 中 不 
断 更 新 状态 。 最 后 ， 从 最 后 一 批 数据 计算 最 终 的 MD5 值 。 图 8-10 说 
明了 MD5 计算 的 执行 流程 

数据 结构 


3 
要 填 






mds init 


| 





md5 _ update 














Last batch 
of data? 


mas final 





128 位 的 状态 在 md5 :init() 函 数 中 初始 化 ， 其 中 mctx 结构 还 图 8-10 在 md5.c 和 执行 流 中 


包括 辅助 变量 ， 如 block 数组 和 byte count 变量 用 于 计算 : 


的 主 函 数 模块 
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mctx->hash[0] 
mctx->hash[1] 
mctx->hash[2] 
mctx->hash[3] 


OXx67452301; 
Oxefcdab89; 
0x98badcfe; 
OxXx10325476; 


算法 实现 

初始 化 后 ，ma5_ update() 函数 按 每 批 64 字 节 (相当 于 512 位 ) 抓 取消 息 源 ， 并 用 下 面 的 代码 段 
进行 MD5 计算 : 

const uu32 
Count & Ox3f); 
mctx->byte count 
if (avail > len) { 
memcpyl(char *)mctx-sblock + 


avail = sizeoflmetx->block) - (lmctx->byte 


+= leny; 


{sizeof (mctx->block) -= avail), data, len); 
return OQ 
} 
memcpyl(char *)mectx->block + 
(sizeof (mctx->block) avail),data, avail); 
mds transform helper(mctx); 
data += avail; 
len == ‘avall; 
while (len >= sizeof(mctx-sblock)) { 
memcpy (mctx->block, data, 


sizeof(mctx->block)); 
md5 _ transform helper(mctx); 
data += sizeof (mctx=>block); 
len == Sizeof(mctx-sblock): 


} 


memcpy (motx->block, data, len); 


ECUEN Gs 
这 里 的 data 数组 是 将 被 转化 为 MD5 值 的 源 消息 ， 消 息 的 长 度 是 len。md5 _ update() 函数 尝试 从 
data 中 读 取 数据 ， 直 到 block 数组 (64 字 节 ) 填 满 为 止 。 一 旦 数组 被 填 满 ， 就 调用 md5 transform 
helper() 函数 ， 它 再 调用 md5 transform() 函数 。 
md5_tranform( ) 函数 是 MD5 计算 的 主要 组 成 部 分 (详情 参见 RFC 1321) 。 该 函数 按 顺 序 执行 4 
个 类 似 的 16 个 操作 的 循环 。 例 如， 在 第 一 次 循环 中 的 16 个 操作 如 下 : 














MDS5STEP(F1, a b; &, d, inlo] + 0xd76aa478, 7); 
MDS5STEP{(F1,; d, a&; b; Gin] + OXe8c7b756; 12); 
MDS5STEP(FL, €, dd; a, b: inl2] + 0x242070db; 17); 
MDS5STEP(F1, b, ¢, d, a, inl3] :+ Oxclbdceee, 22); 
MDSSTEBP(F1, &, lb, €, d, inl4] + 0RfS7e0fatf, 7)s 
MDSSTEP(F1, dd, a, b, c, inlSs] + 0x4787c62a, 12); 
MDSSTEP(F1; ©¢,; Gd; a,: bi aa[6] + 0Xa8304613, 17); 
MDSSTEP(F1, b, ¢c, d, a, inl7] + Oxfd469501, 22); 
MD5STEP(F1, a, b, c, d, in[8] + Ox698098d8, 7); 
MDS5STEP(F1, d, a, b, c¢, in[l9] + Ox8b44f7af, 12); 
MDSSTEP{E1; Ci GQ; a 蕊 三 [9 # Xfrttftsbhbl; 17); 
MDS5STEP(F1, b, ¢, d, a, inlii] + Ox895cd7be, 22); 
MDSSTEP(F1, a; b, ec: d, in[l1i2] + 0x6b901122, 7); 
MDSSTEP(E1, dd, a, b, ee, inll3] i Oxfd987193, 12); 
MD5STEP(F1, ¢, d, a, b, in[14] + Oxa679438e, 17); 
MD5STEP(F1, b, c¢, d, a, inl[l1i5] + Ox49b40821, 22); 


这 里 a、b、c 和 dd 是 来 自 hash 数组 的 32 位 字 的 状态 ，MD5STEP 是 一 个 如 下 定义 的 宏 : 


#define MD5STEP(f, w, Xx, Yy, 


(+= E{%, 


Zz) 


于 Wi 兰 


in SS) \ 
(w<<S | w>>(32-S)) + xXx) 


将 应 用 于 4 个 循环 中 的 从 Fl 到 F4 的 非 线 性 函数 定义 如 下 : 


Hdefine 
Hdefine 
#define 
#define 


如 果 消 息 的 长 度 不 是 64 字 节 的 倍数 ， 那 么 就 填充 最 后 一 部 分 直到 总 长 度 是 64 字 节 的 整数 倍 。 简 而 言 


入 


(y Zz))) 
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之 ， 填 充 是 一 位 1 后 跟 多 个 0， 最 后 原始 消息 的 长 度 以 位 表示 。md5 _final() 函数 进行 填充 并 调用 md5_ 
tranform( ) 函数 对 最 后 一 个 block 数组 计算 最 终 的 输出 。maq5 值 最 终 存 储 在 mctx 结构 中 的 hash 字段 中 

练习 

1.， 在 CPU 中 的 数值 可 以 表示 成 低 字 节 序 (little endian) 或 高 字 节 序 (big endian) 。 解 释 md5. c 程 
序 怎 样 处 理 在 计算 表示 上 的 差距 。 

2. 在 相同 的 目录 中 与 shal generic.c 进行 比较 ， 找 到 sha tranform() 函数 在 哪里 以 及 如 何 
实现 。md5 transform() 和 sha tranform() 实 现 的 最 大 不 同 是 什么 ? 


8. 2. 3 ” 链 路 层 隧道 

在 链 路 层 中 一 种 流行 的 安全 机 制 是 隧道 ， 它 是 基于 分 组 封装 的 。 隧 道 通 过 公共 网 络 构 建 一 条 专用 
通信 信道 。 如 果 用 户 硕 望 访问 企业 网 络 ， 他 只 需 拨 打 该 公司 的 本 地 网 络 接 人 服务 器 ( NAS) 并 使 用 
NAS 建立 一 条 到 公司 网 络 的 隧道 。 第 2 层 隧 道 可 以 同时 支持 了 一、IPX、NETBEUI 和 AppleTalk 。 

第 2 层 隧道 的 一 个 众所周知 的 例子 是 〈 点 到 点 隧道 协议 PPTP)， 定 义 在 RFC 2637 中 ， 它 用 于 
VPN。 在 隧道 中 PPTP 将 加 密 的 PPP 帧 封装 在 IP 数据 报 中 。PPTP 隧道 具有 两 种 模式 : 1) 客户 端 发 起 
模式 ， 客 户 端 发 起 直接 连接 到 PPP 服务 器 的 链接 ; 2) ISP 发 起 模式， 客户 端 首先 建立 与 ISP 接 人 服务 
器 的 PPP 会 话 ， 然 后 与 远程 PPTP 服务 器 建立 一 条 隧道 。， 通 过 呼叫 标识 符 的 方法 ， 多 个 连接 可 以 共享 
建立 的 隧道 。 

第 2 层 隧道 协议 (12TP) 将 思科 公司 的 第 2 层 转 发 (L2F) 和 微软 的 PPTP 的 优点 结合 起 来 
L2TP 具有 多 个 优 于 它 前 身 的 优点 。 例 如 ，PPTP 只 支持 一 个 隧道 每 次 一 个 用 户 ， 而 L2TP 可 以 支持 多 个 
并 发 的 隧道 。 注 意 ， 即 使 L2TP 通常 在 其 隧道 内 承载 PPP 会 话 并 且 在 其 名 字 中 有 “第 2 层 ", 但 L2TP 
分 组 是 在 UDP 数据 报 中 传输 的 。 

L2TP 隧道 的 每 一 端 在 客户 端 充当 L2TP 访问 集中 器 (LAC)， 在 服务 器 充当 L2TP 网 络 服务 央 
(LNS)。 在 12TP 有 两 种 消息 类 型 : 控制 和 数据 。 建立 和 管理 隧道 的 控制 消息 是 通过 更 低层 可 靠 的 传输 
服务 发 送 的 。 数 据 消息 通过 不 可 靠 的 传输 模式 (如 UDP) 来 承载 实际 的 数据 。 像 在 PPTP 中 一 样 ， 建 
立 的 隧道 也 可 以 通过 呼叫 ID 的 方法 被 许多 连接 共享 。L2TP 还 可 以 与 8.2.4 节 中 介绍 的 IPSec 一 起 实 


现 。 经 过 L2TP 隧道 的 协商 和 建立 后 ，L2TP 分 组 然后 由 IPSece 封装 以 便 提供 机 密 性 。 
8.2.4 IP 安全 


IETF 在 网 络 层 建立 了 一 个 开放 的 网 络 安全 协议 标准 ， 即 互联 网 协议 安全 (IPSec)。 我 们 首先 介绍 
IPSec 的 概念 ， 然 后 描述 其 机 制 ， 通 过 定义 IP 认证 头 、PP 封装 安全 有 效 载 荷 和 密 钥 管理 实现 数据 完整 
性 、 认 证 和 安全 通信 中 的 隐私 。 

许多 商业 服务 是 在 互联 网 之 上 构建 运行 的 ， 因 此 在 互联 网 上 的 专用 通信 和 就 是 主要 问题 。 在 会 话 层 
和 应 用 层 已 经 提出 了 多 个 网 络 安全 的 标准 。 例 如 ，SET 和 SSL 可 以 实现 安全 的 HTTP。 由 于 互联 网 以 互 
联网 协议 (IP) 为 基础 ， 所 以 在 中 层 就 需要 有 一 种 安全 机 制 以 整合 上 层 的 各 种 安全 机 制 。 因 此 ，IETF 
为 IPv4/v6 建立 中 安全 (IPSec) 以 实现 以 下 目标 : 身份 验证 、 完 整 性 、 机 密 性 和 访问 控制 。 

IPSec 的 第 1 个 版 本 (RFC 1825 到 RFC 1829) 是 1995 年 提出 的 。 它 有 两 个 主要 模式 : IP 认证 头 
(AH) 和 了 封装 安全 有 效 载 荷 (ESP)。 前 者 提供 数据 完整 性 和 认证 ， 而 后 者 提供 安全 的 数据 传输 。 
AH 和 ESP 头 部 包括 两 个 可 选 的 头 部 以 便 在 IPv6 中 使 用 IPSec。 第 1 个 版 本 的 IPSec 中 没有 对 密 钥 交换 
和 管理 的 描述 。 它 只 定义 了 分 组 格式 。1998 年 ， 提 出 了 第 2 版 (RFC 2401、RFC 2402、RFC 2406 ) ， 
它 包 括 安全 关联 (SA) 和 密 钥 管理 、 互 联网 密 铀 管理 (IKE) 。 因此 ，IPSec 得 以 完整 实现 。 

安全 关联 

为 了 IPSec 中 的 专用 通信 ， 设 计 了 安全 关联 (SA) 以 便 建 立 一 个 安全 传输 的 单 向 连接 ， 它 也 是 
IPSec 中 最 重要 的 概念 。 它 定义 的 多 个 重要 参数 : 认证 算法 及 其 密 钥 、 加 密 /解密 算法 和 密 钥 、 密 钥 的 
有 效 期 等 。 唯 一 的 SA 可 以 由 主机 的 下 地址 、 安 全 识别 码 (代表 AH 或 ESP) 和 32 位 的 安全 参数 索引 
(SP) 定义 。 由 于 SA 是 单 向 的 ， 所 以 它 需 要 两 个 SA 来 构建 一 个 双向 的 点 到 点 连接 。 一 个 SA 既 可 以 
使 用 AH 也 可 以 使 用 ESP 作为 安全 协议 。 
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认证 头 部 

RFC 1828 建议 IPSec 使 用 MD5 算法 进行 认证 。 发 送 者 从 传输 的 IP 分 组 和 使 用 MD5 算法 的 密 钥 来 
计算 消息 ， 然 后 将 消息 添加 到 分 组 中 。 接 收 到 该 分 组 后 ， 接 收 者 执行 相同 的 MD5 计算 得 到 消息 值 ， 接 
收 者 将 该 值 与 分 组 中 的 值 进行 比较 。 如 果 两 者 相等 ， 身 份 认 证 成 功 。 由 于 将 MD5 计算 应 用 到 整个 IP 
分 组 ， 所 以 这 种 方法 不 仅 执行 认证 ， 而 且 还 验证 数据 完整 性 

为 了 认证 ，IPSec 定义 了 两 种 模式 : 端 到 端 模 式 和 端 到 中 间 设 备 模式 。 图 8-11 中 显示 了 它们 之 间 
的 主要 区 别 。 在 前 一 种 模式 中 ,通信 的 双方 都 执行 认证 。 当 通信 双方 不 信任 网 络 设施 的 安全 性 但 希望 
保证 传输 的 安全 性 时 ， 就 应 用 这 种 模式 。 对 于 后 者 ， 认 证 在 其 中 一 方 和 另 一 方 所 在 的 局 域 网 中 的 路 由 
右 或 者 防火 墙 上 进行 。 因此， 路 申 器 或 者 防火 墙 将 扮演 一 个 “安全 网 关 ” 的 角色 。 换 句 话说， 网 关 应 
该 保证 局 域 网 的 安全 性 。 





端 到 中 间 设 备 


路 由 器 / 
防火 墙 





企业 内 联网 





py 


ee 
EE 端 到 端 认证 
图 8-11 认证 类 型 
图 8-12 显示 了 认证 头 部 的 格式 -。 第 一 个 字段 ， 下 一 个 头 部 ， 表 示 认 证 头 部 后 的 下 一 个 有 效 载 荷 的 
协议 类 型 。 后 面 是 一 个 长 度 为 8 位 的 字段 。 长 度 为 16 位 的 预 留 字段 保留 用 于 将 来 ， 目 前 设置 为 0。SPI 
字段 表示 一 个 独特 的 SA。 序列 号 表示 分 组 的 序列 号 ， 用 于 防止 重 放 攻击 。 














0 8 16 3 
F 一 个 部 | 长 度 i 保留 
安全 参数 索引 (SED) 
序列 号 
认证 数据 (可 变 的 ) 





图 8-12 ”认证 头 部 

封装 安全 有 效 载荷 

封装 安全 有 效 载 荷 (ESP) 采用 DES 或 者 3DES 提供 安全 的 下 分 组 传输 。ESP 不 仅 保证 数据 安全 ， 
也 同样 实现 认证 和 数据 完整 性 。ESP 可 以 在 两 种 模式 下 运行 : 传输 模式 一 一 在 传输 层 加 密 数据 块 ; 隧 
道 模式 一 一 加 密 整 个 IP 分 组 。 

图 8-13 和 图 8-14 中 分 别 显示 了 这 两 种 模式 。 在 传输 模式 中 ，ESP 头 部 位 于 数据 块 之 前 。 这 种 模式 
与 隧道 模式 相 比 ， 有 一 个 较 短 的 加 密 部 分 ， 所 以 它 要 求 的 市 宽 也 较 少 。 在 隧道 模式 中 ，ESP 头 部 位 于 
加 密 卫 分 组 之 前 。 这 种 模式 产生 了 一 个 新 的 下头 部 。 它 适用 于 被 安全 网 关 保护 的 环境 。 在 传输 过 程 
中 ， 发 送 者 或 者 网 关 加密 一 个 IP 分 组 ， 之 后 这 个 加 密 的 分 组 将 发 给 接收 者 的 网 关 ， 接 收 者 的 网 关 将 解 
密 这 个 IP 分 组 并 将 原始 的 简单 文本 数据 发 送 给 接收 者 ， 


IP 头 部 | 扩展 头 部 | ESP 头 部 | 传输 层 分 段 
一 一 未 加 密 的 十 加 密 的 


图 8-13 ”传输 模式 ESP 
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| iP 关闭。 | 扩展 头 部 | Esp 头 部 IP 头 部 + 传输 层 分 段 | 
一 一 未 加 密 的 加 千 的 一 一 


图 8-14 隧道 模式 ESP 




















密 钥 管理 

因为 AH 认证 和 ESP 加 密 同 时 需要 加 密 和 解密 密 钥 ， 所 以 密 钥 管理 在 IPSec 标准 中 非常 重要 。 主 要 
的 密 钥 管理 协 以 包含 : IP 简单 密 钥 管理 协议 (SKIP) 和 ISAKMP/Oakley (因特网 密 钥 交 换 ，IKE )。 
SKIP， 由 Sun Microsystems 提出 ， 采 用 Diffie Hellman 的 密 钥 交换 算法 传输 基于 公 钥 系统 的 密 铀 。 

ISAKMP 由 两 个 主要 步骤 组 成 。 第 一 步 ，ISAKMP 的 两 端 通过 协商 建立 一 个 安全 和 认证 的 信道 ， 第 
一 个 ISAKMP SA。 第 二 步 ， 它 使 用 第 一 个 SA 构建 AH 或 者 ESP SA。ISAKMP SA 和 IPSec SA 之 间 的 主 
要 区 别 是 TSAKMP SA 是 双向 的 ， 而 IPSec SA 是 单 向 的 。 


开源 实现 8.3: IPSec 中 的 AH 和 ESP 
概述 

IPsec 的 实现 既 可 以 在 开源 的 软件 包 又 可 以 在 Linux 内 核 中 提供 。 前 者 包括 Openswan (http: // 
www. openswan. org) 和 strongSwan (http: AAwww. strongswan. org)， 后 者 是 Linux 内 核 2.6。 将 IPSec 集 
成 到 Linux 内 核 中 是 一 件 从 头 开始 的 独立 工作 。 鉴于 Linux 内 核 在 Linux 用 户 中 非常 流行 ， 这 里 我 们 介 
绍 Linux 内 核 中 的 IPSec 实现 . 

IPSec 有 两 种 主要 的 模式 : AH 和 ESP。AH 为 IPv4 实现 的 源 代 码 在 net/ipv4/ah4.c 中 (或 者 
IPv6 的 实现 在 ijpv6/ah6.c 中 )， 而 IPv6 的 ESP 实现 的 源 代码 在 net/ipv4/ah4.c 中 (或 者 IPv6 的 
实现 在 ipv6/ah6. c 中)。 

框图 

图 8-15 显示 了 实现 的 框图 。ah4 init() 和 esp4 init () 两 个 都 将 指针 注册 到 相关 联 的 处 理 程 
序 ， 两 者 中 的 状态 也 都 初始 化 。 当 分 组 被 接收 或 者 被 发 送 时 ，xfrm input () 和 xfrm _ output () 函数 
将 根据 使 用 的 模式 : AH 或 ESP， 调 用 相应 的 函数 








ah4 init esp4 init 


et 


ah_init state 








esp_init state 


| ah_input | | esp_input | 


























ah_output | 





esp_outp ] 





图 8-15 ”Linux 内 核 中 在 AH 和 ESP 内 实现 的 主 函数 
数据 结构 


在 两 种 模式 中 ， 认 证 头 部 和 ESP 头 部 都 定义 在 include/1linux/ip.h 中 ， 如 下 所 示 。 
struct ip auth hdr { 

__u8 nexthdr; 

.uu8 hdrlen; 

_ belé6 reserved; 

__ be32 spi; 

be32 sedl nos 

_u8 auth aata[0] : 
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struct ip esp har 1{ 
be32 Spl 
_ E32 Sed Ne 
ua enc data[dl]; 
| 
算法 实现 
在 AH 实现 的 开始 ，ah4 init () 函数 调用 inet add protocol (&ah4 protocol, IPPROTO 
AH) 注册 AH 处 理 程序 的 结构 ， 即 ah4 protoco1l， 这 个 结构 的 处 理 程序 字段 是 将 要 接收 和 处 理 IPSec 
分 组 的 xfrm4 rcv() 函数 。 注 意 ESP 处 理 程序 的 结构 也 指向 xfrm4 rcy() (参考 sep4. c)， 这 意味 
着 该 协议 的 解析 留 到 以 后 进行 . xrfm4 _rcv () 函数 将 最 终 调 用 品 数 来 解码 分 组 并 且 获 得 输入 状态 ( 参 
见 net/xfrm/xfrm input.c 中 的 函数 xfrm input () ) ， 依 次 调用 ah4 input () 函数 ( 挂 接 到 
type 结构 ， 参 见 ah4. c)。 解 析 AH 头 部 后 ， 这 个 函数 将 执行 以 下 代码 来 确认 ah - >auth data > 
在 AH 头 部 中 的 认证 数据 ) 是 否 等 于 ICV (完整 校 验 值 ) 
u8 auth data [MAX AH AUTH LEN] ; 
memcpy (auth data, ah->auth data, ahp->icv trunc len); 
skb pushl(skb, ih1l)'; 
err = ah mac digest (ahp, skb, ah-sauth data); 
if (err) 
goto unlock; 
if (mememp (ahp->Swork iev, auth data, ahp->icy trunec len)) 
err = -EBADMSG; 
在 代码 中 ， 原 先 的 ah - >auth data 首先 复制 到 auth data 中 ， 然 后 像 ah _output () 函数 一 
样 ，ah mac qigest() 函数 计算 TCV (在 ahp 结构 中 ) ( 见 下 面 )。 两 个 值 进行 比较 以 便 检 查分 组 是 
否 有 效 。 如 果 有 效 ， 接 收 分 组 ; 和 否则， 丢弃 分 组 ， 
在 接收 者 一 边 ， 为 了 验证 函数 ah output () 调 用 ah mac digest () 产 生 ICV, 使 用 以 下 代码 将 
这 些 值 复制 到 AH 头 部 的 ah - >auth data 中 : 
err = ah mac digest (ahp, skb, ah->sauth data);: 
memcpy (ah->auth data, alhp->work icv, ahp->icv trunc len); 
为 了 简单 起 见 ， 这 里 我 们 仅 介绍 AH 的 实现 。ESP 的 实现 留 给 读者 进一步 研究 ， 
练习 
1. 在 xfrm input. c 中 找 出 函数 xfrm input 是 如 何 确定 协议 类 型 以 及 调用 ah _ input () 函数 或 
esp input () 函数 的 。 
2. 简要 描述 特殊 的 散 列 算法 开源 实现 ， 如 MD5， 其 中 要 包含 md5 init, md5 update 和 maqd5 
final 是 如 何在 ah mac digest 函数 中 实现 的 。 


8.2.5 传输 层 安 全 


在 网 络 安全 中 ， 在 客户 机 和 服务 器 主机 之 间 提 供 安全 和 可 靠 交 易 的 一 个 重要 方法 就 是 在 传输 层 
将 密码 学 和 认证 机 制 相 结合 。 一 种 好 的 传输 层 安 全 解决 方案 就 是 安全 套 接 字 层 ( Secure Socket Layer， 
SSL) 。 然 而 ， 电 子 商 务 需要 为 交易 以 及 与 信用 卡 系统 的 集成 提供 更 多 的 保护 ， 因 此 安全 电子 交易 
( Security Electronic Transaction，SET) 就 是 为 此 目的 而 设计 的 。 

安全 套 接 字 层 

NetScape 建议 利用 SSL 来 支持 Web 客户 机 和 服务 器 之 间 数 据 交 换 的 加 密 和 认证 。 之 后 在 RFC 
2246 中 将 SSL 标准 化 为 传输 层 安 全 协议 (TLS) 。SSLZTLS 工作 在 传输 层 和 应 用 层 之 间 。 在 执行 SSL 
前 ， 客 户 机 和 服务 器 需要 协商 数据 加 密 算 法 ， 如 DES 或 IDEA。 协商 之 后 ， 在 数据 传输 中 进行 加 密 和 解 
窗 。 图 8-16 演示 了 SSL 交易 流程 。 

e 客 户 机 发 送 “SSL Client Hello” 消 息 启 动 与 服务 器 之 间 的 加 密 机 制 。 

。 服务 器 向 客户 机 回复 一 个 “SSL Server Hello” 消 息 ， 然 后 将 它 的 证 书 发 送 给 客户 机 以 便 请 求 客 

户 机 的 证 书 
e 客 户 机 将 它 的 证 书 发 送 给 服务 器 〈 客 户 机 的 证 书 应 该 作为 大 部 分 没有 证 书 客 户 机 的 可 选项 ) 
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。 在 此 之 后 ， 服 务 器 和 客户 协商 密 钥 交 换 ， 其 中 会 话 密 钥 使 用 服务 器 的 公 钥 加 密 : 最 后 ,客户 机 
和 服务 器 丙 者 共享 会 话 密 钥 并 且 利 用 它 执行 安全 的 数据 交换 


客户 机 服务 党 
SSI. 客 户 机 HELLO 


SS1 客户 机 HELLO 








In 服务 器 证 蔬 守 
| 全 i 直 息 汶 村 | EF 入 
请 求 洛 户 机 证 书 
SSL 握 手 





客户 机 证 书 
客户 机 器 钥 交 换 (RSA) 
| 证 书 验 证 


更 改 沉 人 码 规范 





完成 

加 宫 的 数据 流 

图 8-16 ”SSL 交易 流程 

SSL 支持 客户 机 和 服务 器 之 间 的 数据 加 密 ， 但 是 它 在 后 对 缺乏 一 种 完整 的 安全 文 付 机 制 ， 如 信 几 

发 的 安全 支付 。 假设 Alice 在 Bob 那里 预定 了 了 基 些 商品 ， 然 后 她 使 用 信用 卡 付款 。 信 用 卡 内 的 信息 应 该 

安全 地 传递 给 Bob， 由 于 Bob 具有 蜜 钥 来 加 密 和 解密 Alice 的 信用 卡 信 息 ， 所 以 Bob 有 可 能 滥用 Alice 

的 信用 卡 信息 。SSL 也 缺乏 一 种 证 书 机 制 来 确认 客户 机 的 信用 卡 交 易 . 一 旦 黑客 拥有 了 革 人 的 信用 卡 
罗 码 ， 他 也 可 以 滥用 它 
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历史 演变 : HTTP 安全 ( HTTPS) 和 安全 外 壳 (SSHI) 

HTTP Secure (HTTPS) 使 用 he 为 HTTP 提供 数据 加 密 和 安全 认证 ， 因此 ， 不 相关 者 就 
不 可 能 看 到 有 效 载荷 的 内 容 ， 即 使 4 ce 窃听 也 是 如 此 ，Web 服务 器 一 定 要 提供 一 个 由 认证 中 心 
(CA) 签名 的 公 钥 证 书 。 这 个 证 书包 念 一 rd 者 的 喘 份 证 明 。CA 就 是 一 个 颁发 这 种 让 书 的 机 
构 ， 并且 保证 这 个 证 书 是 可 信和 的 。 当 用 广 i Web 网 站 提供 的 HTTPS 接 人 时， 浏览 器 将 核实 证 书 的 真 
实 性 ， 并 且 当 证 书 易 被 入 侵 时 将 发 出 移 告 提醒 用 户 。 因 此 用 户 不 容易 被 假冒 的 Web 网 站 欺骗 。 然 而 ， 
仍然 由 用 户 来 定义 HTTPS 的 安全 性 ， 如 果 用 户 完 全 忽视 了 警告 并 且 继 续 浏览 Web 站 点 ， 那 么 安全 性 将 
无 法 得 到 保证 。 与 HTTP 相反 ，HTTPS 默认 运行 在 端口 443 上 ， 通 过 以 “https” 开 头 的 URL 访问 。 

与 HTTPS 一 样 ，SSH (Secure Shell) 运行 在 端口 22 上 上， 能 够 提供 同样 的 安全 性 能 。 与 Telnet 相 
反 , 在 SSH 中 传输 的 分 组 是 加 密 的 ， 因 此 它 可 以 作为 不 可 靠 Telnet 的 一 种 很 好 的 替代 。 同样 ,与 
HTTPS 类 似 ，SSH 支持 密 钥 交换 和 服务 器 认证 。 除 了 密码 机 制 外 ， 它 还 为 用 户 认 证 提供 一 种 公 钥 机 制 ， 
例如 ， 用 户 可 以 生成 一 个 公 钥 并 且 将 它 存储 在 服务 融 上 村。 用 户 保 管 自 己 的 私 钥 ， 在 用 户 登 录 到 服务 天 
时 窜 钥 对 就 可 以 得 旬 验 证 ， 由 于 它 的 安全 性 ，SSH 在 远程 shell 和 安全 文件 传输 中 非常 受 欢 迎 

安全 电子 交易 

Visa、MasterCard 、IBM 、Microsoft 和 HP 合作 ， 于 1996 年 2 月 提出 安全 电子 交易 (Secure Electronic 
Transactions，SET) 协议 。 安 全 电子 交易 组 织 LLC (又 称 为 SFTC) 成 立 于 1997 年 7 月 ， 致 力 于 管理 和 
促进 SET 协议。SET 的 特点 有 : 

。 SET 仅 提供 支付 中 相关 信息 的 加 密 ， 而 SSL 则 加 密 客 户 机 和 服务 涡 之 间 的 信息 。 

。 SET 加 密 购买 者 、 销 售 方 以 及 销售 方 所 在 银行 之 问 传 输 的 高 度 敏感 数据 ， 所 有 都 需要 拥有 数字 





证 书 -。 

esSET 和 SSL 之 间 的 主要 区 别 在 于 ，SET 不 会 将 信用 卡号 提供 给 卖家 ， 所 以 卖家 不 可 能 滥用 这 个 
号 码 . 

图 8-17 说 明了 SET 的 操作 过 程 ， 其 中 包含 4 个 主要 角色 : 买 家 Bob、 电 子 商 店 卖家 Alice 、 信 用 卡 


的 开户 银行 和 电子 商店 的 开户 银行 。Bob 同 会 胃 (E,) 和 私 钥 (D,) 、Alice 的 公 钥 (E, ) 和 私 铀 
(CD,) 、4 个 方面 的 证 书 也 包含 在 了 SET 的 操作 过 得 中。 交易 流程 如 下 : 
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图 8-17 SET 操作 流程 

1) Bob 从 Alice 的 电子 商店 中 选择 了 一 种 产品 ， 并 且 告 知 Alice 他 将 使 用 信用 卡 支 付 。 

2) Alice 将 本 次 订单 的 交易 ID 返还 给 Bob。 

3) Alice 将 她 的 证 书信 息 、 公 钥 以 及 她 的 开户 银行 的 公 钥 发 送 给 Bob 

4) Bob 收 到 了 第 3 步 的 消息 

5) Bob 通过 网 络 定购 并 且 上 县 有 订购 信息 (01) 和 购买 信息 (PT) 。 他 使 用 Alice 的 公 钥 加 密 0I 并 
将 它 发 送 给 Alice。 同 时，Bob 使 用 Alice 开户 银行 的 公 钥 加 密 PI 并 将 它 发 送 至 开户 银行 。 

6) Alice 将 “请 求证 书 ”消息 和 订购 ID 发 送 给 Bob 的 信用 卡 的 开户 银行 。 

7) Alice 使 用 其 银行 的 公 钥 来 加 密 如 下 信息 : Bob 加 密 的 PT、 她 自己 的 证 书 和 “请 求证 书 ” 消 息 ， 
并 将 它们 都 发 送 到 她 的 开户 银行 ， 

8) Alice 的 开户 银行 解密 这 些 加 密 过 的 信息 并 检查 它们 是 否 被 修改 过 。 

9) Alice 的 开户 银行 使 用 信用 卡 原始 交换 机 制 来 处 理 相 关 操 作 ， 

10) Bob 的 开户 银行 向 Alice 的 开户 银行 回复 了 证 书 结果 

11) 如 果 Alice 的 开户 银行 收 到 了 “确认 成 功 ”消息 ， 就 立即 回复 消息 给 Alice 

如 果 上 上 述 一 切 顺 利 ，Alice 就 将 这 次 订单 的 回复 消息 发 送 给 Bob 来 确定 交易 已 经 完成 。 每 对 请 求 和 
应 答 都 需要 双方 保护 它 不 被 第 三 方 修改 或 者 得 到 安全 信息 。 此 外 ，Alice 无 法 获得 Bob 的 信用 卡号 。 因 
此 ，SET 就 能 确认 一 条 通过 网 络 的 安全 交易 环境 。 


8. 2.6 VPN 技术 的 比较 

F 面 比较 前 面 三 节 中 提出 的 VPN 技术 。 根 据 YPN 所 基于 的 协议 ，VPN 技术 能 够 分 为 L2TP/PPTP 
(在 链 路 层 ) 、IPSec (在 网 络 层 )、SSL (在 传输 层 ) VPN。 总 的 来 说 ，VPN 操作 所 在 的 层次 越 高 ， 其 
建立 和 配置 也 就 越 简 单 。 然而， 在 更 低层 的 操作 可 以 支持 更 广泛 的 上 层 协议 。 

L2TP VPN 支持 PPP 的 认证 和 隐私 保护 。L2TP 支持 的 认证 协议 包括 : PAP、CHAP、MS-CHAP vl 
和 v2 等 ， 同 时 数据 也 可 以 使 用 3DES 算法 进行 加 密 。 它 的 最 大 优势 是 能 够 传输 广泛 的 第 2 层 协 议 : 以 
太 网 、 帧 中 继 、PPP、ATM 等 ， 以 及 非 IP 协议， 如 PX 或 Appletalk。 然而，L2TP 不 人 够 安全 ， 可 能 遭受 
多 种 攻击 ， 简 单 地 说 ，L2TP 在 隧道 层 提供 LAC 和 LNS 之 间 的 认证 , 但 是 这 种 认证 不 是 以 每 个 分 组 为 
基础 。 例 如 ， 在 隧道 建立 之 前 攻击 者 有 机 会 动 持 L2TP 隧道 。 而且 ，L2TP 不 提供 密 钥 管理 服务 。 由 于 
互联 网 协议 占据 主导 地 位 ， 所 以 对 于 非 IP 协议 支持 的 需求 也 在 不 断 降 低 。L2TP 也 要 求 在 使 用 之 前 安 
装 L2TP 客户 端 软件 - 

在 IPSec 的 隧道 模式 ， 整 个 IP 分 组 都 是 加 密 的 ， 并 且 分 组 使 用 一 个 新 的 全 头 部 进行 封装 。 因 此 ， 





风 和 给 颁 全 | 407 





IPSec 可 以 用 来 创建 VPN。 我 们 不 重复 介绍 IPSec 的 细节 ， 但 是 总 结 IPSec VPN 的 优点 和 缺点 。 像 L2TP 
VPN 一 样 ， 除 了 支持 TCP 外 ，IPSec 还 支持 所 有 的 上 层 协 议 。 而 且 ， 它 还 对 TCP 相关 的 攻击 ( 如 拒绝 
服务 攻击 和 伪造 RST 来 终止 连接 ) 具有 免疫 性 。 它 的 主要 缺点 是 难以 部 署 . 首先 ， 系 统 必 须 能 够 支持 
IPSec 并 且 有 相关 的 客户 端 软 件 ， 这 个 缺点 在 大 规模 的 部 署 中 具有 消极 的 影响 。 其 次 ， 公 司 的 防火 墙 必 
须 显 式 地 允许 IPSec 中 的 流量 ， 因 此 使 用 TPSec VPN 就 要 额外 地 对 防火 墙 进行 配置 


SSL VPN 的 操作 很 简单 。 在 开始 的 时 候 ， 用 户 通 过 浏览 髓 和 VPN 网 关联 系 起 来 。 在 用 户 登 录 之 后 ， 网 
关 将 向 用 户 认证 自己 并 且 传 送 加 密 过 的 会 话 cookie 给 浏览 闫 。 然后 两 者 开始 通信 并 且 交 换 会 话 密 铀 ，。 
因为 如 此 多 的 设备 可 以 浏览 Web， 所 以 该 特性 非常 具有 优越 性 ， 这 也 是 SSL VPN 流行 起 来 的 原因 之 一 


8.3 访问 安全 

在 私有 和 公共 网 络 之 问 控制 访问 是 网 络 安全 的 一 个 关键 解决 方案 。 在 本 节 中 ， 我 们 将 介绍 用 于 访 
问 控制 的 网 络 设备 : 防火 墙 。 防火 增 可 以 根据 网 络 层 /传输 层 中 的 信息 (如 IP 地 址 和 端 品 号 ) 或 应 用 
层 信息 (如 URL) 过 滤 网 络 流量 。 在 对 防火 墙 系统 有 了 一 个 简单 的 了 解 之 后 ， 我 们 将 介绍 每 种 类 型 的 
防火 墙 。Netfilter/iptables 和 FWTK 是 两 种 开源 防火 墙 实现 的 例子 


8.3.1 简介 

防火 墙 是 一 种 通过 提供 私有 网 络 和 公共 网 络 之 间 的 访问 控制 来 保护 企业 网 络 的 常用 设备 。 如 果 允 
许 分 组 访问 列表 ， 则 分 组 就 能 够 通过 防火 墙 ， 否则， 它们 将 被 阻塞 。 阻 塞 操作 也 会 被 审计 。 因 为 私有 
网 络 中 的 主机 隐藏 在 防火 墙 的 后 面 ， 所 以 对 它们 的 访问 必须 明确 地 得 到 防火 墙 的 允许 。 玉 授权 的 外 部 
用 户 不 了 解 服务 器 或 者 主机 是 在 防火 墙 后 面 的 私有 网 络 中 

防火 墙 过 滤 是 双向 的 。 一 个 组 织 也 可 以 根据 某 些 访问 策略 来 限制 私有 网 络 上 的 用 户 访问 互联 网 
例如 ， 雇 员 在 上 班 工作 时 间 不 允许 访问 外 部 FTP 站 点 。 

因为 无 论 哪个 方向 的 分 组 都 必须 穿 过 防火 墙 ， 所 以 防火 南 对 大 量 分 组 进行 分 类 的 效率 很 重要 ， 咎 
则 防火 墙 就 有 可 能 成 为 瓶颈 。 即 使 被 检查 的 分 组 信息 通常 是 第 3 层 和 第 4 层 的 信息 ， 例 如 IP 地 址 和 端 
口号 ,但 是 只 检查 第 3 层 和 第 4 层 信息 是 不 够 的 ， 因 为 1) 给 定 的 服务 可 能 不 在 标准 的 众所周知 端口 上 
运行 ， 使 它 很 容易 躲避 控制 策略 ; 2) 需要 基于 应 用 层 信息 更 细 粒 度 的 控制 。 例 如 ;: Web 过 滤器 可 以 
检查 URL 请 求 是 否 指向 一 个 被 允许 的 站 点 。 

因此 ， 按 照 数据 分 组 中 被 检查 的 字段 ， 我 们 需要 两 种 类 型 的 防火 墙 ， 网络 层 /传输 层 防火 墙 和 应 用 
层 防火 墙 。 有 关 这 两 种 类 型 防火 墙 的 详细 描述 将 在 接 下 来 的 两 节 中 给 出 


8. 3.2 网 络 层 /传输 层 防 火 墙 

网 络 层 /传输 层 防 火 墙 也 称 为 分 组 过 滤器 ， 即 它 根据 网 络 层 的 字段 和 管理 员 配 置 的 规则 来 过 滤 分 

组 。 这 些 字段 可 以 是 协议 标识 符 、 源 /目的 全 地 址 、TCP 或 者 UDP 的 源 / 目 的 地 端口 号 等 。 这样 的 防火 

增 可 以 进一步 分 成 屏蔽 主机 防火 增 和 屏 珊 子 网 防火 墙 。 图 8-18 显示 了 屏蔽 主机 防火 墙 的 结构 。 在 屏蔽 

主机 防火 墙 中 ， 无 论 是 进入 还 是 外 出 的 流量 都 必须 通过 供 垒 主机 。 换 句 话说， 耳 过 滤 路 由 器 可 以 按照 
指定 允许 访问 和 不 允许 访问 IP 地 址 的 规则 来 允许 或 者 阻止 分 组 通过 保 牟 主机 。 

允许 








因特网 


不 允许 


图 8-18 屏蔽 主机 防火 墙 
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在 这 种 结构 中 ,堡垒 主机 在 专用 网 络 之 外 而 且 必 须 阻 止 所 有 的 攻击 。 这 种 结构 的 优点 是 在 IP 过 滤 
路 由 器 上 设置 分 组 过 滤 很 简单 ， 因 为 两 个 方向 上 的 分 组 都 必须 通过 保 双 主机 。 它 的 缺点 是 ， 如 来 管 理 
员 在 专用 网 络 中 允许 特定 的 服务 ， 那 么 整个 专用 网 络 就 会 暴露 给 公共 网 络 ，。 一旦 分 组 能 够 经 过 这 些 服 
务 访问 专用 网 络 ， 那 么 其 安全 性 能 会 显 普 地 降低 ， 

图 8-19 显示 了 屏蔽 子 网 防火 墙 的 结构 ， 它 利用 网 络 中 的 两 人 台 IP 过 滤 路 由 融和 非 军 事 化 区 域 
(DMZ) 。 实际 上 ， 这 种 结构 也 通过 一 台 带 有 多 接口 的 路 由 需 〈 分 别 连接 到 专用 网 络 、 公 共 网 络 和 
DMZ) 来 实现 ， 因 为 趾 过 滤 路 由 器 在 专用 网 络 附近 构建 ， 所 以 即使 下 过 滤 路 由 器 在 因特网 附近 开启 
了 某 些 不 需要 穿 过 保全 主机 的 服务 ， 专 用 网 络 中 的 主机 也 不 会 将 它们 自己 松露 给 公共 网 络 。 这 样 就 可 
以 避免 屏蔽 主机 防火 增 的 缺点 。 设 置 下 过 滤 路 由 上 带 与 设置 屏蔽 主机 防火 增 类 似 。 邻 近 公 共 网 络 的 上 
过 滤 路 由 带 设 置 访问 规则 来 确认 人 到 专用 网 络 的 目的 地 IP 地址， 同时 从 专用 网 络 到 公共 网 络 的 源 IP 地 
址 是 保 仅 主机 的 地 址 。 邻 近 专 用 网 络 的 IP 过滤 路 由 带 设 营 访 问 规 则 来 确认 来 自 专 用 网 络 的 分 组 的 上 日 的 
IP 地 址 ， 并 且 到 专用 网 络 的 分 组 的 源 IP 地 址 必须 是 保 垒 主机 


堡 又 主机 
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IP 过 滤 路 由 器 | 





图 8-19 屏蔽 子 网 防火 墙 

如 果 一 个 组 织 向 互联 网 提供 一 些 服务 ， 例 如 电子 邮件 、Web 和 DNS， 那 么 这 些 服务 器 一 定 不 能 在 

专用 网 络 中 。 如 果 这 些 服 务 器 遭 到 攻击 ， 攻 击 者 就 能 够 通过 已 被 攻破 的 服务 器 到 达 专 用 网 络 中 所 有 的 

主机 ， 就 好 像 防火 墙 不 存在 一 样 。DMZ， 一 个 介 于 外 部 防火 增 和 内 部 防火 墙 之 间 的 区 域 ， 是 放 先 服务 

器 的 合适 位 置 。 即 使 攻击 者 已 经 攻破 了 DMZ 之 内 的 服务 器 ， 他 仍然 不 能 够 访问 内 部 防火 墙 之 后 专用 网 

络 中 的 主机 。 需 要 注意 的 是 ， 在 DMZ 中 的 服务 器 不 允许 主动 地 访问 专用 网 络 ， 否 则 攻击 者 在 DMZ 的 
服务 器 被 攻破 的 情况 下 ， 就 有 机 会 到 达 专用 网 络 


开源 实现 8.4: Netfilter 和 iptables 

概述 

Netfilter 是 系统 内 核 中 的 一 组 检查 点 ， 它 们 能 够 监视 通过 某 个 通信 协议 的 分 组 ， 这 些 检 查 点 称 为 多 
子 (hook)。 通 过 这 些 钓 子 ,， 在 内 核 中 分 组 路 径 上 操作 分 组 就 成 为 可 能 。 每 一 个 钩子 都 有 一 个 唯一 的 钓 
子 号 ， 因 此 Netfilter 就 可 以 检查 当前 的 通信 协议 是 否 有 一 个 已 经 注册 的 钩子 用 于 经 过 Netfilter 处 理 的 分 
组 。 如 果 注 册 的 钧 子 存在 ， 就 必须 检查 这 些 分 组 并 且 必 须 遵守 已 经 定义 的 规则 。 通 过 以 下 5 步 来 进行 
处 理 : 

e NF _ ACCEPT: 接收 分 组 。 

eNF_ DROP: 不 经 过 任何 处 理 就 丢弃 分 组 。 

eeNF_ STOLEN: Netfilter 处 理 分 组 ， 但 不 是 随后 的 通信 协议 

e NF_ QUEUE: 将 分 组 保存 到 队列 中 。 

eNF REFPRAT: 调用 该 钩子 再 次 处 理 分 组 

框图 

在 Netfilter 中 ,根据 5 个 已 注册 的 钓 子 ，IP 表 执 行 分 组 检查 

1) NF_ INET_ PRE_ ROUTING 

2) NF_ INET_ LOCAL_ IN 

3) NF_ INET_ FORWARD 
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4) NF_ INET_ POST_ ROUTING 

5) NF_ INET_ LOCAL_ OUT 

图 8-20 显示 了 5 个 钩子 之 间 的 关系 ， 

NF INET PRE ROUTING 代表 主机 接收 分 组 之 前 和 开始 处 
理 路 由 函数 之 前 的 钩子 NE INET LOCAL IN 是 用 于 寻找 在 处 
理 完 路 由 函数 后 哪 一 个 目的 地 址 是 主机 的 钩子 ，NE INET FOR- 
WARD 是 用 于 分 组 在 经 过 路 由 函数 处 理 后 传输 到 另 一 个 主机 的 钧 
子 。NF INET POST ROUTING 是 结束 路 由 函数 之 后 的 钩子 。NE_ 
INET LOCAL OUT 代表 路 由 函数 处 理 之 前 的 钩子 。 

当 钧 子 检查 分 组 时 ， 就 必须 应 用 来 自 iptables 的 分 组 过 
滤 规 则 ， 它 是 用 户 空 间 程 序 用 以 指定 接收 、 丢 弃 或 者 将 分 组 插 





















































入 队列 。 | 
数据 结构 
下 面 的 3 个 数据 结构 代表 了 一 个 iptables 规则 。 图 8-20 Netfilter 注册 的 钩子 


1) struct ipt _ entry 包含 以 下 这 些 字段 。 

e struct ipt ip: 需要 匹配 的 由头 部 。 

enf cache: 位 序列 表示 IP 分 组 头 部 中 的 哪 一 个 字段 必须 要 检查 。 

etarget offset: 表示 结构 ipt entry target 的 初始 化 位 置 。 

enext offset: 离 ipt _ entry target 结构 所 在 的 规则 开头 的 偏 移 量 ， 

e comefrom: 内 核 用 于 跟踪 分 组 传输 的 字段 。 

e struct ipt counters: 记录 分 组 数量 和 本 身 匹 配 规则 的 分 组 数量 。 

2) struct ipt entry match: 记录 已 比较 的 分 组 内 容 。 

3) struct ipt _ entry target: 在 比较 完成 后 记录 行为 〈 即 目标 ) 。 

算法 实现 

iptables 的 源 代码 位 于 net/ipv4/netfilter 目录 内 (相对 于 内 核 源 代码 树 )。 在 ip tables.c 中 的 
ipt do table () 函数 通过 使 用 在 iptables 程序 中 指定 的 规则 处 理 分 组 的 检查 。 钩 子 的 原型 如 下 : 

ipt do tablel(struct sk buff *skb, unsigned int. hook, 


econst striuet net deviee *in, orst strvet net deviee 
“out; Btruct Kt tabLle “tanle); 


这 里 skb 指向 分 组 ，hook 是 标识 钩子 的 钩子 号 ，in 和 out 是 网 络 设备 的 输入 和 输出 ， 而 table 是 规 
则 表 。 在 开始 时 ，ipt do _ table () 函数 尝试 从 下 列 语句 中 hook 的 索引 中 定位 规则 列表 。 

private = table->private; 

table base = (void *)private->entries[smp processor id()]; 

e = get entry (table base, private->hook entry[hook]).; 

这 里 e 是 一 个 指向 规则 的 ipt entry 结构 体 的 指针 。 找 到 了 从 hook 索引 的 规则 列表 之 后 ， 代 码 
开始 匹配 IP 分 组 头 部 信息 ， 如 源 中 地 址 和 目的 卫 地 址 ， 每 一 个 进入 的 分 组 都 必须 匹配 这 些 规则 。 如 
果 与 分 组 头 部 信息 匹配 ， 那 么 代码 就 继续 与 ipt_entry _ match 结构 中 所 指定 的 内 容 进 行 匹配 。 下 面 
的 代码 对 应 于 匹配 处 理 。 


3 (ip packet match (ip， indev, outdev, &e->ip 
mtpar.fragoff)) { 
struet ipt entry target *t; 
if (IPT MATCH ITERATE(e, do match, skb, &mtpar) != 0) 
goto no match; 





这 里 ip_packet match () 函数 匹配 头 部 信息 ，IPT MATCH ITERATE 宏 匹 配 分 组 内 容 。 当 分 组 与 
规则 匹配 后 ， 就 调用 下 列 语 名 获得 目标 ( 即 动作 ) ， 


t = ipt get target (e); 


否则 ， 执 行将 会 继续 匹配 下 一 条 规则 (来 自 no match 标签 ) 。 
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练习 
1. 指出 最 终 调用 哪 一 个 函数 在 TET MATCH ITERATE 宏 中 对 分 组 内 容 进 行 匹配 . 
2， 从 钩子 中 找 出 在 何 处 调用 ijpt do table () 函数 


8. 3. 3 应 用 层 防 火 墙 

应 用 层 防 火 墙 通过 在 应 用 层 对 比 一 组 应 用 签名 (如 URL) 来 过 滤 分 组 。 这 种 类 型 的 防火 墙 比 仅 检 
查 第 3 层 和 第 4 层 信 息 的 防火 墙 可 以 提供 更 细致 的 访问 控制 。 例 如 ，HTTP 请 求 的 目的 端口 号 一 般 都 是 
80， 如 果 网 络 管理 员 想 要 阻塞 对 黑 名 单 上 Wepb 站 点 的 访问 ， 即 使 所 有 的 HTTP 请 求 以 80 端口 为 目标 ， 
那么 利用 防火 墙 只 检查 端口 号 也 是 不 够 的 。 因 此， 有 必要 检查 分 组 的 内 容 ， 

由 于 应 用 内 容 一 直 都 不 可 用 直到 TCP 连接 建立 为 止 ， 所 以 常见 的 应 用 层 防 火 墙 是 代理 服务 器 。 例 
如 ， 访 问 Web 资源 的 主机 首先 要 和 代理 服务 器 建立 连接 ， 然 后 发 送 URL 请 求 ， 它 将 被 防火 墙 检 查 。 如 
果 这 个 URL 是 被 允许 的 ,那么 这 个 代理 将 通过 另 一 条 连接 转发 该 URL 请 求 到 Web 服务 器 ;和 否则， 这 
个 请 求 就 绝对 不 会 被 转发 :不仅 是 HTTP， 还 包括 其 他 协议 ， 如 FTP、SMTP、POP3 等 可 以 使 用 类 似 的 
方式 进行 过 滤 。 开源 实现 8.5 提供 了 一 个 防火 墙 工 具 箱 Toolkit (FWTK) 的 例子 ， 这 是 一 个 支持 过 滤 应 
用 层 协议 的 应 用 层 防火 墙 


开源 实现 8.S: 防火 墙 工具 箱 (FWTK) 

概述 

防火 墙 工具 箱 (FWTK) 是 一 组 构建 应 用 层 防 火 墙 的 代理 程序 集合 。 在 集合 中 是 针对 主要 应 用 层 
协议 ， 如 SMTP、FTP 和 HTTP 等 代理 服务 器 设计 的 防火 墙 。 原先 的 FWTK 软件 包 开发 在 10 年 前 就 已 
经 停止 了 ， 但 是 最 近 又 在 SourceForge 上 以 名 为 openfwtk 的 软件 包 得 以 重新 复活 。 当 该 软件 包 中 的 一 
个 程序 执行 时 ， 将 装载 文件 netperm-table 用 于 分 组 过 滤 的 设置 和 规则 。 这 个 文件 在 FWTK 的 应 用 
中 很 常见 ， 并 且 包 含 两 种 规则 类 型 : 通用 代理 规则 和 特殊 应 用 规则 。 在 cfg.c 中 的 cfg appenad () 子 
数 调 用 read config line () 函数 来 读 取 和 解析 netperm-table 中 的 每 一 行 。 

在 netperm-table 中 的 每 一 个 表 项 都 有 3 个 字段 : 应 用 名 称 、 参 数 名 称 和 参数 内 容 。 我 们 使 用 
squid-gw HTTP 应 用 代理 配置 作为 示例 。 例如， 下 面 两 条 规则 阻止 了 所 有 访问 ， 以 给 定 主机 作为 主机 
名 并 且 以 简单 的 HTTP URL 允许 对 .edu 域 的 访问 。 

squid-gw: deny-destinations http*://*.*.*.* 

squid-gw: destinations http://www.*.edu 


框图 

我 们 使 用 squid-gw 代理 作为 示例 来 介绍 应 用 层 防 火 墙 的 执行 流程 。 
图 8-21 显示 了 在 squid-gw 代理 的 main() 有 函数 中 调用 的 主要 模块 。 在 执行 
流程 中 ， 配 置 首先 由 config global () 读 取 。 当 HTTP 请 求 到 达 时 ， 处 理 





























它 并 将 它 与 http process _ request () 中 的 规则 进行 匹配 。 如 果 访 问 得 到 En 
允许 ，http_send request () 就 发 送 请 求 ，http response () 处 理应 答 。 1 
数据 结构 http_read request 
在 该 分 组 中 最 重要 的 数据 结构 是 Cfg 结构 ， 它 存储 了 配置 和 规则 。 它 
的 定义 如 下 给 出 | 
http_process_ request 
typedef struct cfgrec { 
int flags; /* see below */ + 
int Ts /* line# in config file */ h 四 区 
char *Op; /* facility name */ bp So reast 
int arges /* number of arguments */ 
char et (1 Vector */ 
struct cfgrec *next; http_response 
} Cfg; 





从 next 字段 ， 可 以 发 现 结构 是 列表 中 的 一 个 结 点 ,在读 取 了 net- 图 8-21 squig-gw 执行 
perm-table 的 每 一 行 后 ， cfg_append() 函数 将 配置 中 的 每 一 行 存 储 在 一 流程 的 框图 
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个 附加 在 列表 中 的 节点 中 。flag 字段 为 PERM ALLOW、PERM DENY 或 者 0 (如 果 配 置 行 与 许可 、 拒 绝 
都 无 关 )。op 字段 是 对 象 ， 如 行动 所 指 的 connect 和 href。 相关 的 变量 和 编号 将 存储 在 argv 和 





args 中 a 

算法 实现 

执行 规则 的 主 函 数 在 squid-gw. c 中 。 当 收 到 一 个 来 自 客户 端的 转发 请 求 时 ，squid-gw 重复 地 将 
请 求 与 每 个 存储 的 规则 进行 比较 。 从 http process request () ( 中 间 有 两 个 其 他 函数 ) 间接 地 调 
用 在 static int mtoh destbination (Cteo* ef-eonst char* seonst stryet url* um; Sonmst 


char* method) 中 的 规则 匹配 代码 段 ， 


if (cf=sarge 5 0 && (stremp (ef-sargvl0], “GET*) == 0 
| | strcmp (cf->argv{[0], “HEAD’”) == 0 
|| BErons 个 丰 EEC "PusST"y = OW} 

| 

if (stremp {cf-=>argv[0], method) != 0) 


return -1; /* Skip the complete rule */ 
++i; /* Skip the request method */ 


} 
在 这 一 段 代 码 中 ， 当 netperm-table 解析 后 将 配置 存储 在 cf 结构 中 。 如 果 请 求 方法 ， 即 GET、 
HEAD 或 POST 是 在 规则 中 指定 (cf - >argv[0])， 那么 就 首先 检查 转发 请 求 的 方法 。 如 果 这 两 种 方 
法 不 匹配 ， 那 么 完整 的 规则 直接 被 忽略 。 上 比较 了 请 求 方法 后 ， 就 执行 下 面 的 代码 段 。 
while (i < cf-sarge && cf-sargv[i][0] != ~-’) 


{ 


i (steampD: (Gf=sALEGVE], Wi) == 二 
= 
else 
{ 
if (url parse (&pattern, (octet*) cft=>azgv[i]， 
strlen (cf->argv[i]), UPF WILDCARD | UPF NODEFPORT) != 0) 
UE erreoE (vdeatiilat lo GE-wl1h)y 
Sm '= MEl econmpare (dotet») GE 


&pattern, (octet*) s, u, UCF IGNORE CASE | UCF WILDCARD); 


} 
a 生 和 二 基 和 
// A URL match is found. Details skipped here. 


} 

在 规则 中 指定 的 URL 依次 与 转发 请 求 中 的 内 容 进行 匹配 。 如 果 比 较 的 URL 是 一 个 通配符 ， 那 么 匹 
配 确 定 (CMP = =0); 否则 ， 该 解析 URL 并 与 转发 请 求 中 的 URL 进行 比较 。 继 续 进行 比较 ， 直 到 找到 
一 个 匹配 的 为 止 。 如 果 没 有 找到 匹配 的 ， 将 授权 访问 (没有 在 上 面 的 代码 段 中 显示 )。URL 解析 和 
URL 比较 的 两 个 函数 分 别 为 url parse() 和 url compare()。 它 们 在 url.c 中 实现 。 我 们 将 URL 解 
析 和 比较 的 详细 情况 留 给 读者 来 完成 。 

练习 

1. 解释 url parse() 和 url compare( ) 是 如 何在 软件 包 中 实现 的 。 

2， 你 认为 规则 匹配 方法 有 效 吗 ?有 哪些 方式 能 够 提高 其 效率 ? 


行动 原则 : 无 线 访问 控制 

无 线 访 问 控制 的 一 种 方法 是 只 允许 来 自 MAC 地 址 在 白 名 单 上 的 无 线 接 口 的 访问 。 然 而 ， 这 种 方法 
很 容易 被 攻破 ， 因 为 源 MAC 地 址 可 以 很 容易 伪造 。 因 此 就 强制 使 用 一 种 更 强 的 访问 控制 。 

访问 控制 机 制 可 以 在 链 路 层 甚 至 更 高 的 层 上 实现 。 在 链 路 层 ，Wi-Fi 保护 访问 (WPA) 规范 中 的 
预 共 享 密 钥 模式 提供 了 不 需要 验证 服务 器 的 密码 短语 保护 。 在 IEEE 802. 1X 中 的 扩展 认证 协议 (EAP) 
模式 定义 了 在 允许 网 络 访问 前 识别 和 验证 用 户 的 整个 过 程 。 在 更 高 的 层 ， 部 署 庶 拟 专用 网 络 是 一 种 保 
护 无 线 网 络 的 不 错 选择 。 能 够 提供 认证 、 隐 私 和 保密 的 VPN 技术 ， 是 一 种 在 WPA 之 上 的 额外 保护 。 


与 检查 网 络 层 和 传输 层 头 部 信息 的 防火 墙 相 比 ， 应 用 层 防 火 墙 更 为 复杂 。 在 网 络 层 或 传输 层 头 部 
字段 的 位 置 和 长 度 上 是 固定 的 。 在 前 面 的 防火 墙 中 的 分 组 过 滤 的 复杂 性 是 中 等 的 ， 它 将 这 些 固定 字段 
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与 策略 规则 进行 匹配 。 相 比 之 下 ， 应 用 层 防火 墙 需要 检查 与 目的 地 应 用 程序 相同 的 视图 中 的 分 组 的 内 
容 ， 解 析 应 用 协议 、 恢 复 其 请 义 ， 并 搜索 分 组 内 容 〈 在 相关 的 应 用 字段 中 ) 中 的 一 组 签名 。 签 名 可 能 
出 现 的 位 置 不 固定 ， 等 名 的 长 度 也 可 能 会 有 很 大 差异 。 签 名 可 以 用 复杂 的 形式 〈 如 正则 表达 式 ) 来 表 
示 ,， 这 使 得 签名 匹配 更 加 复杂 

除了 等 名 匹配 的 复杂 性 外 ， 如 果 应 用 层 防火 增 像 FWTK 那样 作为 代理 来 实施 ， 那 么 它 可 以 利用 操 
作 系 统 中 的 协议 栈 来 执行 所 有 的 革 作 ,恢复 分 组 的 内 容 ， 如 分 组 重组 ， 但 防火 墙 对 用 户 不 是 透明 的 。 
用 户 必须 为 使 用 代理 配 园 应 用 程序 。 应 用 层 防 火 墙 也 可 以 是 透明 的 ， 默默 地 和 穷 听 分 组 并 重组 分 组 以 恢 
复出 内 容 ， 但 该 程序 应 该 处 理 TCP 协议 栈 所 处 理 的 复杂 性 。 这 个 开销 不 是 微不足道 的 。 所 有 这 些 问 
题 ， 对 应 用 层 防火 墙 的 工作 效率 形成 很 大 的 挑战 。 


8.4 系统 安全 

攻击 一 个 系统 的 方法 包括 3 个 任务 : 收集 信息 、 利 用 漏洞 ， 然 后 用 亚 意 代码 攻击 。 收 集 信 息 是 指 
用 通过 监控 、 扫 描 和 社会 工程 方法 手段 获得 关键 的 或 私人 信息 。 知 道 系 统 的 信息 后 ， 攻 击 者 试图 找到 
并 利用 该 系统 上 的 漏洞 。 最 后 ， 攻 击 者 通过 渗透 到 系统 中 的 恶意 程序 发 起 攻击 或 直接 攻击 系统 。 我 们 
接 下 来 介绍 上 述 每 一 个 任务 中 的 技术 。 从 攻击 者 的 角度 介绍 了 相关 技术 后 ， 我 们 提供 各 种 防御 技术 。 
我 们 以 ClamAV 、Snort 和 SpamAssassin 作为 开源 实现 的 例子 。 


8.4.1 信息 收集 

攻击 者 通常 扫描 目标 系统 以 便 收 集 (如 服务 提供 程序 、 打 开 的 端口 ) 信息 ， 甚 至 在 发 起 后 续 攻 击 
之 前 能 对 这 些 信息 加 以 利用 。 收 集 技 术 包括 扫描 和 监控 。 两 个 典型 的 扫描 分 别 是 远程 扫描 和 本 地 扫描 
监控 收集 有 关 网 络 或 计算 机 系统 的 信息 ， 如 密码 。 两 种 典型 的 监控 分 别 是 嗅 探 和 帘 探 。 Jung 等 人 在 
2004 年 讨论 了 如 何 利用 统计 的 方法 检测 端口 扫描 。 

远程 扫描 

远程 扫描 意 为 扫描 远程 目标 系统 以 收集 信息 ， 如 主机 名 、 打 开 的 服务 、 服 务 提供 程序 ， 以 及 可 能 
的 远程 漏洞 。 远 程 扫描 软件 的 一 个 例子 是 Nessus (www. nessus. org) ， 它 采用 客户 机 /服务 器 框架 ， 提供 
了 一 个 易于 操作 的 图 形 化 用 户 界面 。 

本 地 扫描 

本 地 扫描 意 为 扫描 本 地 的 目标 系统 以 收集 信息 ， 如 重要 的 系统 文件 、 特 殊 权 限 程序 和 主机 内 可 以 
利用 的 漏洞 。 其 代表 是 UNIX 的 COPS。TIGER 是 另 一 个 工作 在 UNIX 的 本 地 扫描 程序 。 

嗅 探 

嗅 探 意 味 着 通过 局 域 网 拦截 分 组 访问 信息 。 主 机 通常 只 接收 发 向 它 自己 的 分 组 , 但 是 通过 将 它 的 
网 络 接口 配置 成 “混杂 模式 ”"， 它 可 以 鹤 听 所 有 经 过 它 的 分 组 。 用 于 这 种 类 型 监控 的 最 著名 的 程序 就 
是 Sniffer. 

一 种 称 为 分 布 式 网 络 嗅 探 咒 的 嗅 探 程序 能 够 隐藏 在 服务 器 和 客户 机 上 。 攻 击 者 可 以 和 人 侵 一 台 主 机 ， 
并 安装 “客户 机 ”程序 监控 所 有 的 分 组 、 分 析 用 户 标 识 符 和 密码 ， 并 将 这 些 数 据 发 送 到 “服务 器 ”。 

窥探 

这 种 类 型 的 系统 监控 意味 着 监控 内 存 、 磁 盘 或 其 他 存储 数据 ， 以 获得 主机 内 部 的 信息 。 例 如 ， 监 
控 和 记录 键盘 上 键入 的 信息 。 根 据 所 收集 的 信息 ， 攻 击 者 就 可 以 以 后 入 侵 到 其 他 主机 。 

窥探 者 通常 使 用 后 门 程序 包 。 我 们 将 后 门 程序 描述 成 恶意 代码 也 可 以 起 到 系统 监控 功能 。 

社会 工程 

社会 工程 试图 利用 人 类 的 弱点 而 非 通 过 系统 或 互联 网 的 攻击 。 例 如 ， 攻 击 者 发 送 一 封 电子 邮件 或 
打 电 话 给 用 户 ， 声 称 他 是 系统 操作 员 并 且 询 问 用 户 的 私人 信息 。 社 会 工程 也 包括 黑客 站 在 用 户 背 后 罕 
探 密码 信息 。 


8. 4.2 漏洞 利用 
漏洞 是 程序 或 软件 中 的 设计 错误 ， 入 侵 者 可 以 利用 它 获得 重要 的 系统 信息 或 管理 员 的 特权 或 者 使 
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系统 瘫痪 。 在 世界 上 有 无 数 的 程序 。 其 中 许多 程序 可 能 有 错误 。 即 使 程序 设计 中 没有 错误 ,但 是 在 使 
用 时 ， 用 户 仍 然 可 能 错误 操作 从 市 产生 安全 源 洞 。 

缓冲 区 溢出 是 最 知名 的 设计 错误 。 输 入 数据 可 能 会 溢出 绥 冲 区 空间 ， 因 为 没有 仔细 检查 缓冲 区 的 容 
量 ， 如 果 用 户 在 100 字 节 的 数组 中 存储 101 字 节 ， 额 外 的 一 个 字 节 就 可 能 会 短 盖 其 他 变量 并 导致 意外 的 
执行 结果 。 图 8-22 显示 了 一 个 例子 ， 其 中 用 户 使 用 缓冲 区 溢出 漏洞 来 执行 他 的 程序 。 当 调用 函数 
called () 时， 操作 系统 将 为 该 函数 建立 一 个 栈 。 在 这 个 例子 中 ， 用 户 只 需要 在 缓冲 区 中 存储 包含 攻击 
代码 的 数据 。 如 果 程 序 不 检查 输入 的 大 小 ， 数 据 就 可 能 任意 长 ， 因 此 可 能 会 用 一 段 攻击 代码 的 起 始 地 址 


流 到 攻击 代码 


void called() 
将 更 多 数据 存 入 缓冲 区 , 然后 
造成 缓冲 区 溢出 并 指向 被 破解 
; 的 文件 地 址 

栈 指针 一 =| 栈 指针 


char buffter[200]: 

















缓冲 区 (200 字 节 ) 











缓冲 区 (200 字 节 ) 














返回 地 址 破解 的 文件 地 址 








图 8-22 ”缓冲 区 溢出 的 例子 

远程 漏洞 

黑客 可 能 入侵 远程 系统 以 获得 未 经 授权 的 数据 、 用 户 ID 和 密码 ， 或 者 通过 远程 攻击 获得 系统 管理 
员 权 限 。 由 于 上 日 标 是 远程 系统 ， 所 以 这 些 漏 洞 通常 发 生 在 在 线 服务 ， 例 如， 由 sendmail 提供 的 邮件 服 
务 ， 据 报道 已 经 被 攻击 过 多 次 。 其 中 大 多 数 漏洞 都 属于 缓冲 区 洪 出 。 

另 一 个 例子 是 wu-ftpd， 其 2.6 版 本 具有 缓冲 区 溢出 问题 。 它 发 生 在 命令 site exec 的 函数 
* printf 中 ,黑客 可 能 会 使 用 一 个 格式 化 字符 串 窗 羡 返回 地 址 ， 以 得 到 缓冲 区 溢出 。 

一 个 名 为 Piranha 的 Web 集群 软件 包 在 安装 后 就 附带 一 个 默认 的 用 户 标识 符 Piranha 和 密码 gq。 如 
果 系 统 操作 员 安 装 软 件 包 后 而 不 改变 默认 的 账户 ,那么 黑客 就 可 以 应 用 此 用 户 标识 符 访 问 程序 ， 导 致 
远程 攻击 。 表 82 了 2 列 出 了 多 个 可 以 提供 对 操作 员 密 码 访问 的 远程 攻击 

男 一 个 远程 汤 洞 的 例子 是 基于 协议 的 攻击 。 通 过 利用 错误 、 差 的 设计 或 TCPZIP 中 含糊 不 清 的 定 
义 ， 基 于 协议 的 攻击 试图 攻击 一 台 远 程 主机 。 例 如 ，IP 欺骗 就 可 以 攻击 基于 地 址 的 认证 系统 ， 黑 窜 通 
过 假扮 成 可 以 被 系统 接受 的 日 的 下 地 址 来 入侵 系统 ， 

表 8-2 ”获得 管理 员 权 限 的 远程 漏洞 列表 






































漏 洞 应 用 版 本 原 

phf 远程 命令 执行 漏洞 Apache Group Apache | 1.0.3 输入 验证 错误 

Multiple vendor BIND (NXT 溢出 ) 漏洞 ISC BIND Bs 缓冲 区 溢出 

MS IIS FrontPage 98 扩展 缓冲 区 溢出 漏洞 Microsoft IIS 4.0 缓冲 区 溢出 

化 成 顿 大 学 imapd 缓冲 区 溢出 漏洞 华盛顿 大 学 imapd 12. 264 缓冲 区 溢出 
ProFTPD 远程 缓冲 区 溢出 专业 FTP proftpd 1.2pre5 | 缓 诈 区 溢出 

Berkeley Sendmail daemon 模式 漏洞 Eric Allman Sendmail | 8.8.2 输入 验证 错误 

RedHat Piranha 虚拟 服务 器 软件 包 默 认 账 号 和 密码 漏洞 RedHat Linux 6:2 配置 错误 

Wu-ftpd 远程 格式 字符 串 栈 重 写 (overwrite) 漏洞 华盛顿 大 学 wu-ftpd | 2.6 输入 验证 错误 

本 地 漏洞 

在 对 本 地 漏洞 的 攻击 中 ， 黑 客 从 某 个 系统 普通 用 户 的 身份 获得 末 经 授权 的 数据 或 更 高 优先 级 的 权 


限 ， 如 管理 员 的 密码 。 此 汤 洞 通常 发 生 在 一 个 特权 程序 设计 中 或 者 一 个 实现 错误 中 
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例如 ，Xterm 就 是 X Window 系统 中 的 终端 模拟 器 。 在 其 早期 版 本 中 ， 它 很 容易 遭受 缓冲 区 溢出 本 
洞 的 攻击 。 如 果 系 统 用 SUID root 替换 Xterm， 即 Xterm 以 root 的 身份 执行 ,那么 攻击 者 就 可 能 获得 管 
理 员 权限 。 

密码 破解 

密 但 破解 通过 党 试 所 有 可 能 的 密码 试图 找 出 系统 的 密码 ， 这 些 可 能 的 密码 可 以 直接 从 字典 文件 中 
派生 出 来 ， 并 从 字典 中 字 的 无 数组 合 和 置换 中 得 到 。 密 人 码 破解 程序 需要 一 个 系统 文件 ， 其 中 存储 了 系 
统 的 账户 和 密码 ， 如 UNIX 系统 中 的 /etc/yshadow。 密 码 破 解 如 下 进行 。 

1) 从 字典 文件 中 挑选 可 能 的 密码 。 密 码 可 能 是 该 文件 中 的 一 个 或 多 个 单间 的 组 合 或 置换 。 

2) 以 与 系统 密码 文件 相同 的 加 密 方 式 来 加 密 密 码 ， 如 使 用 SHAI 

3) 加 密 过 的 密码 与 被 破解 的 密码 进行 比较 。 如 果 两 者 是 相同 的 ， 侯 解 成 功 ; 和 否则， 回 到 步骤 1) ， 

-尝试 其 他 密码 直到 破解 程序 猜测 正 确 

密码 文件 通常 得 到 很 好 的 保护 ， 只 有 管理 员 可 以 读 取 该 文件 。 密 码 破 解 在 实际 中 并 非 小 事 一 件 。 
角 见 的 方法 是 利用 系统 的 漏洞 (例如 ， 站 用 要 冲 区 溢出 攻击 )， 在 管理 员 权 限 的 上 下 文中 执行 程序 来 
获取 文件 ,或 者 发 现 管理 员 以 一 种 不 安全 的 方式 存储 密码 文件 的 副本 。 如 果 不 能 获得 密码 文件 ， 仍 然 
可 以 通过 尝试 登录 来 猜测 密码 。 然 而 ， 主 机 很 可 能 会 记录 攻击 者 的 尝试 ， 并 只 允许 少数 儿 次 密码 错误 
破解 密码 的 效率 取决 于 系统 的 速度 和 密码 的 复杂 性 。 如 果 系 统 非 常 快 并 且 密码 很 容易 猜测 (例如 ， 密 
码 是 一 个 普通 的 英语 单间 ) ， 那 么 会 花费 较 少 的 时 间 。 

拒绝 服务 

拒绝 服务 (DoS) 攻击 会 阻塞 服务 器 上 的 服务 ， 让 其 他 人 无 法 访问 它们 。 其 诀窍 是 耗 尽 有 限 的 资 
源 ， 造 成 该 服务 无 法 进行 下 去 。 例 如 ，TCP SYN 洪 泛 攻击 填 满 了 目标 主机 的 等 待 队列 ， 而 ICMP echo 
应 答 洪 泛 攻 击 则 耗 尽 了 主机 的 带宽 。 在 TCP SYN 洪 泛 攻击 的 情况 下 ,由 于 TCP 采用 三 次 握手 的 方法 建 
立 连 接 ， 所 以 攻击 者 发 出 连续 的 带 有 假 地 址 的 SYN 分 组 ， 但 从 来 没有 在 握手 的 第 三 步 提供 ACK 分 组 ， 
从 而 导致 等 待 队 列 满 。 当 队列 已 满 时 ， 主 机 就 不 能 接受 更 多 的 连接 。 在 ICMP echo 应 答 洪 泛 攻击 中 ， 黑 
客 同时 产生 大 量 的 ICMP echo 请 求 给 目标 系统 。 由 于 目标 系统 将 回应 相同 数量 的 答复 给 请 求 者 ， 所 以 数 
量 庞大 的 ICMP 分 组 将 完全 耗 尽 网 络 带 宽 。Schuba 等 人 于 1997 年 深入 地 分 析 了 DoS 是 如 何 工作 的 。 











大 规模 地 发 起 DoS 攻击 称 为 分 布 式 DoS (DDoS) 攻击 。 图 8-23 显示 了 DDos 攻击 的 一 个 例子 。 黑 
hr 
i 人 
端口 276657TCP 一 一 上 | 
> 
主机 
命 今 3: 
请 求 : 端口 27444/UDP 一 | 一 一 | 
应 答 : 端口 31335/UDP 有 | 
个 | | 
1 UDP 洪 泛 攻 击 代理 代理 





2. TCP SYN 洪 泛 攻击 

3 ICMP echo 请 求 洪 泛 年 攻击 攻击 

4 M 攻 击 

5 Targa3 攻 击 二 局 


目标 目 标 日 标 有 
图 8-23 分布 式 拒绝 服务 (DDoS ) 
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客 控制 了 大 量 受害 者 主机 上 的 代理 。 一旦 黑客 发 送 攻击 命令 给 所 有 的 代理 ， 它 们 就 可 以 同时 产生 大 量 
的 攻击 。 

Trinoo 是 一 个 基于 UDP 洪 泛 攻击 的 客户 机 /服务 器 拒绝 服务 攻击 程序 。 攻 击 者 发 送 大 量 的 UDP 分 
组 (其 中 可 能 包含 欺骗 地 址 ， 以 避免 被 跟踪 ) 给 受害 者 的 系统 ， 这 将 导致 流量 拥塞 甚至 停止 服务 。 
Trinoo 程序 包括 多 个 主机 和 众多 守护 进程 。 攻 击 者 首先 连接 到 主机 并 发 出 带 有 多 个 重要 参数 (如 目标 
的 IP 地 址 以 及 何 时 开始 攻击 ) 的 攻击 命令 。 接 到 攻击 命令 后 ， 主 机 将 连接 到 所 有 的 守护 程序 上 ， 然 后 
开始 攻击 所 有 预定 义 的 受害 者 系统 。 攻 击 过 程 如 下 。 

1) 攻击 者 使 用 端口 27665ZTCP 连接 到 主机 。 

2) 主 使 用 端口 27444XUDP 连接 到 守护 程序 。 

3) 守护 进程 使 用 31335ZUDP 对 主机 响应 。 

4) 守护 进程 使 用 UDP 洪 泛 攻击 开始 攻击 受害 者 系统 。 





8.4.3 恶意 代码 

利用 恶意 代码 又 称 为 恶意 软件 的 攻击 ,包括 黑客 通过 外 部 设备 或 网 络 攻击 目标 系统 。 这 里 介绍 几 
种 类 型 的 恶意 代码 。 

病毒 

病毒 的 行为 中 包含 自我 复制 和 破坏 。 最 初 ， 病 毒 是 指 一 种 能 够 修改 其 他 程序 以 便 包括 其 自身 副本 
的 程序 。 早 期 ， 一 般 的 感染 路 径 是 从 磁盘 复制 一 个 文件 。 术 语 病毒 对 于 普通 公众 来 说 ， 已 经 成 为 恶意 
软件 的 通用 名 称 。 

蠕虫 

由 于 互联 网 的 普及 ， 它 已 经 成 为 恶意 软件 传播 的 主要 途径 。 蠕 虫 是 一 种 在 互联 网 上 能 够 自我 繁殖 
的 程序 。 一 次 攻击 会 将 一 个 蠕虫 植 和 人 到 目标 系统 ， 攻 击 目 标 ， 然 后 再 将 蠕虫 传播 到 其 他 系统 。 它 从 一 
台 受 感染 的 主机 开始 扫描 其 他 易 受 攻击 的 主机 ， 然 后 再 将 自身 复制 给 它们 。 网 络 可 能 被 网 络 上 大 量 传 
播 的 蠕虫 所 寺 案 。Staniford 等 人 在 2002 年 研究 了 多 种 有 效 传播 师 下 的 方法 。 

两 个 著名 的 例子 分 别 是 Code Red (红色 代码 ) 和 Nimda ( 尼 姆 达 )。 它 们 使 用 分 布 式 拒绝 服务 
(DDos) 攻击 Mierosoft TIS 系统 。 晴 虫 传播 占据 了 大 量 的 网 络 带宽 ， 使 得 服务 器 无 法 接受 正常 的 请 求 。 
DDos 攻击 在 世界 各 地 迅速 蔓延 ， 导 致 网 络 中 严重 的 流量 拥塞 。 

特洛伊 木马 

特洛伊 木马 〈Trojan) 将 自己 伪装 成 一 个 无 害 的 程序 或 文件 。 这 个 词汇 来 自古 和 希腊 传说 ， 一 支 攻 
击 部 队 通过 隐藏 在 一 个 巨大 的 木 制 马 中 ， 然 后 被 对 手 推 进 城 门 ， 从 而 涂 透 进入 城中 。 由 于 该 木马 看 起 
来 无 害 ， 用 户 会 被 诱骗 执行 或 者 打开 它 。 用 户 打 开 木 马 程序 或 文件 后 ， 特 洛 伊 木马 会 做 一 些 有 害 的 事 
情 ， 如 安装 另 一 个 恶意 软件 或 者 使 程序 表演 。 

后 门 

成 功 地 入 侵 后 ,为 了 方便 下 次 青 次 进入 受害 者 系统 ， 黑 客 就 可 能 植 入 一 个 隐藏 的 后 门 程序 。 例 如 ， 
Back Orifice 2000 (BO2K) 就 是 一 个 在 Windows 环境 下 ， 为 了 完全 控制 系统 通过 TCP 或 UDP 连接 的 后 














门 程序 。 它 还 支持 文件 传输 、 监 控 和 记录 用 户 操 作 。 此 外 ， 它 可 以 利用 额外 的 择 件 加 强 ， 如 当主 机 连 
接 到 互联 网 时 ， 代 码 会 向 攻击 者 发 送 一 封 电子 邮件 。 
Bot 


Bot (僵尸 ) 是 “robot” 的 简称 ， 意 味 着 受 感染 系统 可 以 由 “botmaster” (僵尸 主 ) 通过 命令 和 控 
制 (C&C) 信道 来 进行 控制 。 受 感染 的 系统 和 botmaster 称 为 “僵尸 网 络 ”。botmaster 接管 这 些 系统 后 ， 
它 可 以 命令 被 感染 系统 发 起 一 次 分 布 式 拒绝 服务 ， 从 这 些 系统 中 窃取 有 价值 的 信息 ， 发 送 巨大 数量 的 
垃圾 邮件 。Rajab 等 人 在 2006 年 曾经 深入 研究 过 僵尸 网 络 的 行为 。 

基于 C&C 信道 之 间 的 差异 ,僵尸 网 络 可 以 分 为 IRC 僵尸 网 络 、P2P 僵尸 网 络 ， 或 混合 僵尸 网 络 。 
IRC 僵尸 网 络 中 的 botmaster 使 用 IRC 协议 控制 僵尸 。 由 于 botmaster 以 集中 方式 控制 僵尸 ， 所 以 它 容易 
产生 单 点 故障 。 因 此 ， 通 过 P2P 网 络 ( 如 Overnet) 传输 命令 的 P2P 僵尸 网 络 越 来 越 受 欢迎 ， 因 为 它们 
更 加 健壮 。 
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开源 实现 8.6: ClamAV 

概述 

ClamAV 是 一 种 用 于 病毒 扫描 的 开源 软件 包 由 于 恶意 代码 及 其 变种 的 快速 扩展 ，ClamAV 声称 它 
的 0. 95. 2 版 本 能 够 检测 到 超过 570 000 条 恶意 代码 (病毒 、 蠕 下 和 木马 等 ) 特征 以 多 种 形式 存在 ， 
其 中 包括 用 于 整个 可 执行 文件 的 MD5、 用 于 某 个 PE 部 分 (可 执行 文件 的 一 部 分 ) 的 MD5、 固 定 字 符 
串 的 基本 特征 (在 整个 文件 中 扫描 ) 、 扩 展 特 征 (以 一 种 简化 形式 的 正则 表达 式 包 括 多 个 部 分 ， 加 上 
目标 文件 类 型 的 规范 、 签 名 的 偏 移 量 等 ) 、 还 辑 特 征 ( 带 有 逻辑 运算 符 组 合 的 多 个 特征 ) 和 基于 归档 
元 数据 的 特征 ,详情 请 仔细 阅读 ClamAV 的 文件 中 的 signatures. pdf。 

框图 

下 面 给 出 在 两 个 主要 运行 流程 中 的 框图 。 第 1 个 流程 是 加 载 特征 数据 库 ， 第 2 个 是 病毒 扫描 文件 
图 8-24 给 出 了 特征 加 载 的 框图 ;cl load() 函数 进行 了 一 些 初步 的 检查 ， 然 后 调用 cli load() 读 取 特 征文 
件 。 根 据 文件 的 扩展 名 ( 即 特征 文件 类 型 )，cli load() 调 用 不 同 的 函数 用 于 加 载 和 解析 特征 ， 以 文件 
ndb 为 例 。 调 用 cli loadndb() 函 数 ， 解 析 ndb 文件 中 的 每 一 行 并 添加 到 表示 特征 的 数据 结构 中 












cli loaddb 





cl_ load | cli_load 








cli cvdload 





cli loadmd5 


cli loadndb - cli_parseadd 


cli_loadldb 




















cli loadwdb 








cli loadpdb 











图 8-24 ”特征 装载 的 框 网 
图 8-25 给 出 了 用 于 特征 匹配 的 框图 。cli scanfile() 打 开 文 件 并 调用 cli magic scandesc() 
扫描 文件 。cli magic scandesc() 试 图 标识 文件 类 型 ， 并 调用 相应 的 例 程 来 处 理 文 件 ， 例如， 如 果 
将 文件 压缩 为 RAR 格式， 那么 cli magic scandesc() 调 用 cli scanrar() 来 解压 缩 文件 。 注意， 
该 文件 可 能 会 在 一 个 压缩 文件 中 打包 数 个 文件 。 因 此 ，cli scanrar() 可 能 会 再 次 递归 调用 

















cli_scanfinle ” ; i 
| 二 cli scandesc cli ac scanbuff 
cli_ magic scandesc cli_scanrar i 
cli bm scanbuff 





















cl unzip 











cli_unzip 


图 8-25 ”特征 匹配 的 框图 
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cli magic_scandesc( ) 来 处 理 这 些 文件 。 在 最 后 一 层 递 归 (如 果 有 ) 中 ,将 调用 cli scan- 
desc( ) 逐 批 地 将 文件 读 入 到 缓冲 区 中 。 然 后 扫描 例 程 ， 调 用 cli ac scanbuff() 和 cli bm 
scanbuff( ) 扫 描 缓冲 区 中 的 病毒 。 前 者 用 Aho-Corasick (AC) 算法 扫描 缓冲 区 ,后 者 使 用 Wu- 
Manber 算法 扫描 同一 缓冲 区 (在 ClamAV 中 ， 不 正确 地 称 为 Boyer-Moore [BM] 算法 )。 

数据 结构 

在 ClamAYV 中 允许 的 目标 文件 类 型 在 matcher. h 中 指定 。 规 范 的 代码 如 下 


static const struct cli mtarget cli mtargets{[CLI MTARGETS] 
- 

0 wnNERLTOw, dO,. Oo }, 

CE TYEE MSEXE, “PE’, 1, © ) 
CL TYPE MSOLE2, “OLE2”, 2, 
CE TYPE 有 ME MHPMLAy By 式 
CE TYPE MALG, "MATD”, 冯 1 
CIL TYPE GRAPHICS, “GRAPHICS*, 5, 1 }, 
CE TYPE) EEF; “ELE”, 6€, 1 }, 

CE. EYPE, TEXT ASGCTT "ASCIT”; 75 1 入 

CL TYPE PE DISASM, “DISASM”, 8, 1 } 


RS Fn PS ne ei 


上 

正如 上 面 已 经 提 到 的 ，ClamAV 还 要 根据 目标 文件 通过 使 用 Aho-Corasick 和 Wu-Manber 算法 将 
特征 存储 在 单独 的 数据 结构 中 。 这 两 种 算法 的 特征 存储 在 cli matcher 结构 (参见 
matcher.h) 中 。 如 果 一 个 特征 的 目标 文件 未 指定 (例如 ,一 个 基本 特征 )， 那 么 特征 将 以 “ 通 
用 ”类 型 添加 到 数据 结构 中 。 为 了 访问 这 些 数据 结构 ， 在 cl engine 结构 (参见 others.h) 
中 的 root 字段 (指向 cli matche 结构 的 数组 指针 ) 是 文件 类 型 索引 的 数组 ， 并 指出 每 个 单 
独 的 数据 结构 。 因 此 ，ClamAV 只 扫描 文件 中 的 “通用 ”类 型 以 及 与 特定 文件 类 型 相关 联 的 特征 。 
例如 ， 当 扫描 一 个 PE 格式 的 文件 (微软 可 执行 文件 ) 时 ，ClamAV 就 不 加 载 与 其 他 类 型 (如 HT- 
ML) 相关 的 特征 。 因 为 需要 扫描 更 少 的 特征 ， 所 以 这 种 方法 可 以 减少 误 报 并 加 快 扫 描 过 程 。 

算法 实现 

ClamAV 的 驱动 引擎 是 1ibclamav 库 ， 其 中 包含 处 理 归档 文件 、 压 缩 文件 和 可 执行 文件 打包 器 (从 
打包 可 执行 代码 到 混淆 代码 分 析 和 扫描 的 程序 ) 以 及 特征 匹配 引擎 的 代码 。 当 启动 ClamAV 时 ， 在 
readdb. c 中 的 函数 cl load() 从 数据 库 中 装载 特征 并 根据 目标 文件 类 型 和 匹配 算法 (Aho-Corasick 和 
Wu-Manber) 将 特征 存储 在 单独 的 数据 结构 中 。 两 种 算法 的 匹配 器 分 别 在 matcher-ac. c 和 matcher- 
bm. c 中 。 前 者 是 负责 多 个 部 分 的 扩展 特征 ， 因 为 在 Aho-Corasick 算法 中 的 自动 化 可 以 更 好 地 表示 这 些 特 
征 。 后 者 负责 基本 特征 和 MD5 的 特征 ， 加 上 单个 部 分 的 扩展 签名 〔 即 没有 特殊 的 字符 ， 如 通配符 ) ， 因 
为 Wu-Manber 算法 可 以 很 容易 地 处 理 固定 (通常 长 的 ) 的 字符 串 。 

scanners.C 文件 包含 驱动 病毒 扫描 的 主 函 数 。 正 如 我 们 在 上 面 提 到 的 ， 这 些 函 数 是 从 cl scan- 
file() 开 始 调用 的 。 经 过 多 次 函数 调用 后 ，cli _ magic_scandesc() 函数 确定 由 cli filetype2() 
函数 调用 的 文档 或 压缩 文件 〈 或 原始 文件 ) 的 类 型 。 对 于 每 种 文件 类 型 ，cli magic scandesc() 调 
用 特定 的 函数 ， 比 如 ， cli scanrar () 用 于 解码 和 扫描 文件 。 不 管 是 什么 文件 类 型 ， 经 过 解码 或 
解压 缩 直 到 原始 文件 导出 后 ， 最 终 将 调用 函数 cli _ scandesc() 启动 病毒 扫描 。 它 调用 特征 匹配 器 
(在 matcher-ac. c 和 matcher-bm. c 中 ) ， 然 后 它 扫描 文件 寻找 对 应 目标 类 型 的 签名 。 

练习 

1. 找 出 cli filetype2() 是 如 何 被 cli magic scandesc 调用 标识 文件 类 型 的 

2. 找 出 在 当前 ClamAV 版 本 中 的 两 种 扫描 算法 中 ， 与 每 个 文件 类 型 (或 通用 类 型 ) 关联 的 特征 数 
量 (提示 : 使 用 sigtool 解压 缩 ClamAV 的 病毒 库 文 件 [ * .evd] 并 检查 结果 的 扩展 特征 格式 的 文件 
[ *.ndb])。 


8. 4.4 典型 的 防御 
描述 过 攻击 方法 后 ， 本 节 将 介绍 几 种 防御 方法 。 防 御 系统 包括 : 数据 加 密 、 身 份 认证 、 访 问 控制 、 
审计 、 监 控 和 病毒 扫描 。 表 8-3 列 出 了 流行 的 软件 包 可 分 为 4 种 类 型 ， 即 防御 、 控 制 、 检 测 和 记录 
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防御 意味 着 使 攻击 者 不 能 得 全 ， 如 数据 加 密 。 控 制 采 用 身份 认证 和 访问 控制 以 防止 未 经 授权 的 用 户 访 
问 未 经 授权 的 密码 /标识 符 。 检 测 意 味 着 检测 任何 攻击 ， 如 监测 和 扫描 。 记 录 意 味 着 记录 消息 跟踪 攻击 
者 ， 如 审计 。 这 些 技术 在 接 下 来 的 各 节 中 描述 。 

表 8-3 防护 软件 包 






































防御 类 型 软 件 URL 
PGP http: /A/www. pgpi. org/ 
数据 加 密 
SSH htip: A/www. openssh. com/ 
Firewall ~ 1 http: A/www. checkpoint. com 
lpchains http: /A/people. netfilter. org/ ~ rusty/ipchains/ 
访问 控制 TCP Wrappers ftp: //ftp. porcupine. org/pub/security/index. html 
Portmap http: /A/neil. brown. name/portmap 
Xinetd | http: A/www. xinetd. org/ 
Tripwire http: /A/www. lripwire. com 
监控 js = = 
LT 了 
RealSecure http: A/www. iss, net 
扫描 Pe -cillin http: A/www. trend. com. tw 
审计 


审计 在 日 志文 件 中 记录 与 安全 相关 的 事件 ， 如 记录 登录 失败 次 数 或 某 些 重要 活动 的 次 数 。 日 志文 
件 对 于 跟踪 和 分 析 谁 或 哪个 系统 被 攻击 很 有 用 ， 因 此 管理 员 可 以 保护 系统 以 避免 再 次 出 现 同样 的 攻击 
现 有 的 操作 系统 具有 审计 功能 ， 如 UNIX 的 系统 文件 wimp。wtmp 文件 记录 所 有 用 户 的 登录 和 注销 状 


态 。 在 微软 的 Windows 系统 中 ， 事 件 查 看 器 执行 相同 的 审计 功能 。 
监控 


这 种 机 制 监控 系统 上 的 任何 异常 活动 ， 如 连续 的 登录 失败 。 当 它 检 测 到 攻击 时 ， 系 统 将 : 1) 通过 
发 送 电 子 邮 件 、 寻 呼 或 报警 来 呼叫 系统 操作 员 ; 2) 停止 系统 或 相关 服务 以 便 减少 可 能 出 现 的 损失 ; 
3) 尝试 跟踪 攻击 者 。 系 统 可 能 将 攻击 特征 作为 线索 以 确定 攻击 类 型 

有 两 种 监控 类 型 : 基于 网 络 的 和 基于 主机 的 。 前 者 监控 网 络 主机 中 任何 异常 的 互联 网 活动 。 它 截 
获 来 自 网 络 接 口 卡 的 分 组 ， 然 后 分 析 任 何 对 主机 的 不 寻常 影响 并 做 出 适当 响应 。 基 于 网 络 的 监控 ， 可 
以 检测 拒绝 服务 攻击 ， 如 TCP SYN 洪 泛 。 一旦 发 现 SYN 分 组 的 来 源 是 非法 的 ， 监 控 将 发 送 一 个 RST 分 
组 给 受到 攻击 的 主机 ， 并 停止 无 限 地 继续 等 待 不 可 能 出 现 的 反馈 。 基 于 主机 的 监控 器 可 以 监控 主机 上 上 
的 任何 异常 行为 ， 如 用 户 日 志和 系统 操作 者 〈 运 营 商 ) 的 活动 和 文件 系统 。 如 果 检 测 到 异常 活动 ， 监 
控 器 会 做 出 适当 的 反应 。 一 个 例子 是 Tripwire， 它 定期 检查 重要 文件 并 将 这 些 文件 与 数据 库 中 的 文件 进 
行 对 比 以 便 发 现任 何 非法 修改 。 

入 侵 检 测 和 防御 

入 侵 检测 系统 (IDS) 根据 已 知 特征 或 人 侵 异 常 流量 检测 入 侵 。 前 一 种 方法 根据 已 知 的 人 侵 特 征 
扫描 分 组 ， 但 可 能 会 出 现 漏 报 。 后 一 种 方法 寻找 流量 中 的 异常 ， 通 常 以 统计 方法 ， 所 以 即使 未 知 的 入 
侵 也 可 以 检测 到 。 但 如 果 正 常 互 联网 活动 的 行为 表现 异常 ， 它 可 能 会 产生 误 报 。 需 要 在 这 两 种 方法 之 
间 进 行 权 衡 。 不 管 是 哪 种 方法 ，IDS 都 会 产生 警报 ， 当 检测 到 入 侵 时 日 志 记 录 触 发 警报 的 分 组 。 

入 侵 检测 系统 的 局 限 性 在 于 它们 在 检测 到 入 侵 时 只 报警 ; 但 它们 无 法 防止 人 侵 。IDS 只 是 被 动 地 
监听 导线 因而 无 法 阻止 入 侵 内 部 网 络 。 解 决 这 个 问题 的 一 个 方法 是 向 连接 的 源 或 目的 地 发 送 TCP RST 
分 组 ， 以 便 让 含有 恶意 流量 的 连接 终止 。 然 而 ， 这 种 方法 是 不 可 靠 的 。 首 先 ， 这 种 方法 只 对 TCP 连接 
有 效 。 其 次 ，RST 分 组 的 序列 号 应 该 与 接收 者 期 望 的 序列 号 匹配 〈 即 接收 者 给 发 送 者 的 确认 号 ) 。 如 
果 由 于 繁重 的 网 络 流量 造成 RST 分 组 传输 延迟 很 大 ， 就 会 存在 一 种 竞争 状态 ， 发 送 者 可 能 向 接收 者 发 
送 更 多 的 流量 ,造成 RST 的 序列 号 不 正确 。 因 此 RST 分 组 可 能 被 直接 拒绝 。IDS 可 以 内 联 地 芽 作 ， 通 





过 占据 分 组 传输 的 线路 ， 也 可 以 与 防火 墙 ( 例 如 在 Linux 上 的 netfilter) 一 起 工作 。 因 此 ， 如 果 IDS 发 
规 入 侵 可 以 主动 地 阻塞 流量 。 这 种 类 型 的 系统 称 为 入侵 防御 系统 (1PS). 

虽然 IPS 可 以 阻塞 人 侵 ， 但 它 也 有 一 些 缺 点 。 首先 ， 如 果 和 警报 是 误 报 ， 那 么 将 会 阻塞 无 害 的 流量 
IDS 就 没有 这 样 的 问题 。 它 只 是 产生 误 报 的 警报 ， 管 理 员 可 以 忽略 警告 消息 。 其 次 ， 如 果 IPS 是 内 联 
的 ， 但 速度 不 足以 赶 上 网 络 的 传输 速度 ， 邢 么 IPS 将 成 为 瓶颈 。 这 对 IDS 就 不 成 问题 ，IDS 可 以 丢弃 一 
些 分 组 ， 并 可 能 有 漏 报 ， 但 流量 传输 不 会 内 IDS 而 放 慢 ， 


行动 原则 : IDS 中 的 瓶颈 

据 报道 ， 在 2000 年 左右 ， 模 式 匹配 是 网 络 入 侵 检测 系统 ， 特 别 是 Snort 的 瓶颈 ， 自 此 以 后 ， 很 多 
研究 工作 中 大 多 集中 在 通过 硬件 的 加 速 上 ， 使 得 Snort 的 字符 串 匹 配 增加 到 了 数 千 兆 位 每 秒 ， 因 此， 性 
能 问题 似乎 已 经 得 到 了 很 好 的 解决 

但 是 事情 并 不 像 看 起 来 那么 简单 。 第 一 ， 许 多 研究 者 假设 特征 可 以 从 一 个 很 大 的 字 节 流 中 扫描 出 
来 ， 然 而 ， 分 组 必须 在 成 为 一 个 字 节 流 前 重新 组 装 ， 并 且 攻 击 者 可 能 会 将 分 组 分 成 小 的 IP 片段 或 TCP 
分 段 ， 需 要 额外 的 工作 实现 分 组 重组 。 第 二 ， 为 了 避免 由 于 短 特 征 而 产生 误 报 ， 特 征 通常 与 特定 的 上 
下 文 相关 联 ， 这 意味 着 只 有 当 上 下 文 条 件 也 同时 满足 时 它们 才 有 意义 下面 是 一 个 Snort 规则 的 例子 


web-elient .trules:alLetE tcp $EXTERNAL NET $HTTP PORTS -> 
FHOME NET any (msg:"WEB-CLIENT Portable Executable binary 


file transfer”; flow:to client,established; content:"MZ|90 
00|”; byte jump:4,56,relative,little; content:"pg|00 
in:4; distance:-64; flowbits:set,exe.download; 


00|"; 5 









noalert; metadata:service http; 


i SidsS53067 reviT;) 

byte jump、distance 和 within 等 可 选项 代表 给 定 的 位 置 (实际 上 ， 某 些 协议 字段 ) ， 在 这 些 
位 置 的 特征 (在 content 中 ) 是 有 效 的 . 通常 ， 协 议 解析 在 特征 匹配 中 变 得 更 加 重要 ， 因 为 越 来 越 多 
的 特征 取决 于 协议 解析 导出 的 上 下 文 。 

第 三 ， 攻 击 者 可 能 会 通过 各 种 类 型 的 字符 编码 混淆 不 同类 型 分 组 的 内 容 ， 使 得 在 特征 匹配 之 前 需 
要 标准 化 。 第 四 ， 有 些 检测 技术 ， 如 端口 扫描 检测 ， 可 能 将 从 多 个 连接 来 的 信息 关联 起 来 ， 因 此 特征 
匹配 会 涉及 来 自 多 个 连接 的 字 节 流 

鉴于 这 些 复杂 性 ， 很 难 想象 整个 入 侵 检 测 系统 的 性 能 像 仅 有 特征 匹配 时 的 吞吐 量 一 样 快 (按照 
Amdahl 定律 很 快 上 升 到 很 多 千 兆 位 每 秒 )。 当面 临 对 手 挑战 (如 规避 ) 时 ， 系 统 的 实际 性 能 和 其 重 棒 
性 应 该 仔细 观察 和 研究 ， 以 便 能 够 达到 目标 性 能 


classtype:misc- 


行动 原则 : 无 线 入 侵 

与 监控 网 络 流量 寻找 入 侵 特 征 的 普通 入 侵 检 测 系 统 不 同 ， 无 线 入 侵 检 测 系 统 监 控 无 线 入 侵 的 无 线 
电 频 谱 ， 其 中 涉及 未 经 授权 接 入 点 的 存在 。 检测 是 很 重要 的 ， 因 为 如 果 一 个 粗心 的 雇员 使 用 了 “ 流 
误 ” 接 入 上 点， 那么 整个 内 部 网 络 可 能 会 暴露 给 外 部 接 入 。 无 线 防 御 系 统 可 以 自动 防止 这 种 威胁 的 发 生 
无 线 入 侵 检 测 系 统 的 另 一 个 功能 是 检测 无 线 攻击 ， 其 中 包括 未 经 授权 的 关联 、 中 间 人 攻击 、MAC 地 址 
其 骗 、 拒 绝 服 务 攻击 等 ， 

无 线 入 侵 / 防 御 系 统 由 三 个 主要 部 分 组 成 : 1) 传感器 ; 2) 服务 器 ; 3) 控制 台 。 传 感 器 可 以 在 其 
整个 履 盖 区 域 的 无 线 信道 上 捕获 帧 .然后 服务 器 分 析 这 些 帧 用 于 入 侵 检 测 ， 而 控制 台 被 管理 员 用 来 配 
置 系统 和 报告 可 能 的 入 侵 。 管理 员 可 以 像 在 一 个 普通 的 入 侵 检 测 系统 上 一 样 查 看 报告 


开源 实现 8.7: Snort 

概述 

Snort 是 一 种 流行 的 开源 检测 工具 ， 用 于 监控 网 络 并 检测 可 能 的 入 侵 。 它 可 以 使 用 1ibpcap 库 捕 捉 
网 络 接口 上 的 分 组 ， 也 可 以 以 PCAP 格式 读 取 分 组 追踪 以 供 离线 分 析 在 获得 用 于 分 析 的 分 组 后 ，Snort 
将 检查 分 组 是 否 匹 配 检 测 规则 ， 其 中 规则 会 考虑 在 分 组 头 部 中 指示 入 侵 发 生 的 某 一 值 和 分 组 内 容 中 的 某 
一 特征 。 如 果 找 到 匹配 ，Snort 将 产生 警报 通知 管理 员 可 能 发 生 了 入 侵 。 下 面 是 一 个 检测 规则 的 例子 
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alert tcp any any -> 10:.1:1.0/24 89 lcontent: “/cgi-bin,) 

phf"; msg: “PHF probe!";) 

图 8-26 给 出 了 Snort 中 的 主要 框图 。SnortMain() 是 利用 ParseCmdLine() 读 取 命 令 行 参 数 的 主 
函数 。 然 后 它 调 用 pcap dispatch()， 这 是 当 Snorl 通过 1ijbpcap 库 捕 获 分 组 时 libpcap 中 的 一 个 
函数 。Pcap dispatch() 函数 注册 一 个 回调 函数 PcapProcessPacket()， 当 准备 处 理 每 个 捕获 的 分 
组 时 就 调用 它 。PcapProcessPacket() 将 调用 Preprocess()， 它 调用 每 个 预 处 理 器 (参见 “算法 
实现 ”中 的 内 容 ) 按 顺 序 挂 接 在 列表 中 经 过 预 处 理 后 ， 调 用 Detect( ) 函数 解析 协议 头 部 并 与 分 组 
的 唯一 端口 相关 联 的 规则 进行 匹配 ( 参见 下 面 的 “规则 检测 ”)。 当 发 现 入 侵 时 ， 就 生成 一 个 警报 给 输 
出 插件 ， 它 也 可 能 会 将 警报 记录 在 一 个 文件 中 ， 并 将 它 转 储 给 控制 等 
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图 8-26 Snort 的 框图 
数据 结构 
除了 包含 全 球 信息 的 PV 结构 外 ， 在 Snort 中 最 重要 数据 结构 是 存储 Snort 规则 的 规则 树 。 规则 树 共 
有 三 个 主 结构 : ListHead、RuleTreeNode、OptTreeNode。ListHead 结构 定义 如 下 。 

typedef struct ListHead 
| 

RuUleTreeNode *“IpList; 

RuleTreeNode *TcpList; 


RuleTreeNode *UdpList; 
RuleTreeNode *ITcmpLlist; 





struct OutputFuncNode *Logbist; 


struct OutputFuncNode *#AlertList; 
struct RuleListNode *rulebListNode; 

} ListHead; 

在 数据 结构 中 ， 与 给 定 协议 (IP、TCP、UDP 或 IJCMP) 关联 的 规则 存储 在 单独 的 规则 树 中 。 在 
RuleTreeNode 中 的 主要 字段 是 源 IP 集合、 目的 全 集合 、 源 端口 、 目 的 端口 。 由 于 RuleTreeNode 
结构 中 有 许多 字段 ， 所 以 这 里 我 们 就 不 介绍 了 。 在 这 些 字段 中 ,目的 端口 通常 是 作为 唯一 的 端口 对 
OptTreeNogde 中 规则 分 类 。 例如， 与 SMTP 关联 的 规则 放 在 一 起 成 为 一 组 ， 端 口 25 意味 着 在 该 组 中 
的 规则 。 因 此 ，Snort 可 以 通过 查看 唯一 的 端口 号 来 决定 匹配 哪 一 个 规则 组 ， 在 RuleTreeNode 中 有 一 
个 指向 OptTreeNode 节点 列表 的 字段 。 每 个 节点 存储 每 个 规则 中 的 规则 选项 (包括 内 容 特征 )。 因 此 
Snort 可 以 遍历 通过 OptTreeNode 节点 的 列表 ， 并 逐个 地 进行 规则 匹配 。 

由 于 逐条 匹配 规则 很 缓慢 ， 所 以 Snort 将 在 同一 列表 中 的 内 容 特征 归 类 到 一 个 集合 中 并 一 起 匹配 它 
们 ， 称 为 集合 感知 (set-wise) 匹配 。 如果 找到 了 特征 ， 接 下 来 将 会 检查 关联 的 OptTreeNode 节点 中 
余下 的 规则 选项 。 如 果 在 该 节点 中 所 有 的 规则 选项 都 匹配 ， 那 么 规则 匹配 并 产生 相应 的 警报 。 由 于 有 
了 集合 感知 (set-wise) 匹配 ， 所 以 Snort 并 不 逐一 遍历 节点 列表 ， 匹 配 的 效率 得 到 提高 

算法 实现 


分 组 可 能 是 IP 分 片 或 TCP 分 段 (特别 是 较 小 的 )。 它 们 可 能 会 妨碍 分 组 中 特征 的 正确 检测 。 例 如 ， 
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一 个 包含 特征 “bad” 的 分 组 ， 可 以 分 成 分 别 包 含 “b”、“a” 和 “d” 的 单独 分 片 。 如 果 Snort 逐个 地 检 
查 ， 就 找 不 到 特征 。 因 此 ，IP 分 片 或 TCP 分 段 在 进一步 检查 之 前 首先 应 该 重组 以 便 恢 复原 来 的 语义 。 

此 外 ，HTTP 请 求 可 能 以 多 种 方式 编码 ， 并 使 分 析 复杂 化 。 在 分 析 之 前 应 该 规范 化 这 些 请 求 。 请 注 
意 ， 在 前 面 例 子 中 的 分 片 / 分 段 或 不 同 的 编码 可 能 是 攻击 者 故意 而 为 之 以 逃避 Snort 的 检测 。 这 技术 被 
称 为 规避 ， 这 种 攻击 应 该 能 够 在 最 新 的 NIDS 中 加 以 处 理 , 而 且 ，IP 地 址 和 端口 号 的 多 样 性 也 可 以 审 
计 以 便 确定 是 否 发 生 了 端口 扫描 。 简 而 言 之 ,在 检测 分 组 之 前 应 分 多 个 阶段 进行 预 处 理 。 

为 了 可 扩展 性 ，Snort 利用 多 个 预 处 理 插 件 实 现 预 处 理 。 这 些 插 件 可 以 将 它们 的 函数 挂 接 到 一 张 列 
表 上 ， 在 Preprocess 函数 (在 detect.c 中 ) 中 检测 之 前 ，Snort 将 遍历 列表 逐个 地 调用 它们 。 下 面 
的 代码 介绍 了 如 何 调 用 预 处 理 器 。 


int Preprocess(Packet * p) 
| 


1 


PreprocessFuncNode *idx = PreprocessList; 
/* 

** Turn on all preprocessors 

*/ 


boSetAllBits(p->preprocessor bits); 


for (; (iax != NULL) && !(p->packet flags & 
PKT_PASS RULE); idx = idx->next) 
{ 
if (((p->proto bits & idx->proto mask) || 
(idx->proto mask == PROTO BIT ALL)) && 


IsPreprocBitSet(p, idx->preproc bit)) 


{ 
} 


idx=>func(p, idx-scontext); 


分 组 解码 
经 过 预 处 理 后 ， 分 组 解码 器 解码 协议 栈 中 每 一 层 的 分 组 头 部 。 下 面 是 在 fpEvalPacket () 函数 中 
的 示例 代码 (在 fpdetect.c 中 )。 


int fpEvalpacket (Packet *p) 


{ 


int ip proto = GET IPH PROTO(p); 
switchl(ip proto) 
{ 
case TPPRROTO TCP: 
DEBUG WRAP (DebugMessage {DEBUG DETECT, 
"Detecting on Teplist \n”) 3) 


if (p->tcph == NULL) 
{ 
i Pro SE =1F 
break; 
} 


return fpEvalHeaderTcp (p); 


case IPPROTO_ UDP: 
DEBUG_ WRAP (DebugMessage (DEBUG DETECT, 
“Detecting on UdpList\n”);); 


if (p->udph == NULL) 


Ep prote = =13 
break; 
} 


return fpEvalHeaderUdp (p); 
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从 示例 代码 中 ， 你 可 以 看 到 对 上 层 协议 (TCP、UDP 或 其 他 ) 的 分 组 头 部 进行 解析 ， 然 后 利用 相 
应 的 函数 进一步 进行 解码 ， 

规则 检测 

检测 引擎 检查 检测 规则 中 的 很 多 选项 为 了 可 扩展 性 ， 它 们 也 可 以 在 插件 中 实现 (在 detec- 
tion-plugins 目录 中 )。 在 选项 中 ，content 和 pcre 是 最 至 关 重 要 的 ， 因 为 它们 指定 了 在 固定 字符 
串 和 正则 表达 式 中 的 恶意 特征 用 于 模式 匹配 (分 别 在 sp pattern match.c 和 sp pcre.c 中 执行 )。 
然而 ， 仅 指定 特征 是 不 够 的 ， 因 为 它们 可 能 只 在 某 些 情况 下 才 起 作用 (例如 ， 在 应 用 内 容 的 某 一 字段 
或 位 置 ) ， 如 果 没 有 将 特征 限制 在 一 定 的 上 下 文 内 ， 那 么 你 会 收 到 许多 误 报 。 有 些 选 项 有 助 于 精确 指定 
上 下 文 。 例如，distance 选项 指定 Snort 应 该 深入 到 分 组 中 何 种 程度 来 寻找 某 个 特征 。 byte _ test 和 
byte jump 选项 可 以 解析 应 用 字段 ， 并 跳 过 某 些 不 会 出 现 特征 的 字段 。 除 了 指定 上 下 文 的 选项 外 ， 某 
此 选项 可 以 指定 在 警报 或 规则 标识 符 中 出 现 的 消息 。 有 兴趣 的 读者 可 以 参阅 Snort 手册 

日 志和 警报 

日 志和 警报 包括 多 种 记录 和 报警 模式 。 扩展 性 可 以 在 插件 中 实现 。 因 为 它们 与 网 络 安全 关系 不 大 ， 
这 里 我 们 就 不 再 详细 讲解 了 

练习 

1， 列 出 Snort 中 的 5 个 预 处 理 器 并 研究 其 中 每 一 个 的 执行 流程 。 

2. 找 出 在 Snort 中 何 种 多 字符 串 匹 配 算法 用 于 特征 匹配 以 及 这 种 算法 是 在 哪里 实现 的 。 

垃圾 邮件 过 滤 

像 入 侵 检 测 一 样 ， 识别 和 过 滤 垃 圾 邮件 也 涉及 扫描 邮件 消息 (重组 分 组 内 容 ) 查找 垃圾 邮件 特 
征 。 与 入 侵 检 测 不 同 ， 在 垃圾 邮件 过 滤 规 则 中 的 特征 匹配 只 意味 着 该 邮件 更 可 能 是 垃圾 邮件 ， 但 正常 
邮件 也 可 能 会 县 有 规则 中 所 描述 的 特征 。 只 根据 规则 来 判断 一 个 邮件 消息 会 导致 很 高 的 误 报 率 。 通 常 
还 要 根 据 从 规则 匹配 中 累积 的 足够 多 的 证 据 来 做 出 决定 。 通 过 研究 一 个 流行 垃圾 邮件 过 滤 软 件 包 Spa- 
mAssassin 的 开源 实现 ， 我 们 来 学 习 如 何 过 滤 拉 垃圾 邮件 


开源 实现 8.8: SpamAssassin 

概述 

SpamAssassin 是 一 个 开源 软件 包 ， 它 可 以 识别 和 过 滤 垃 圾 邮件 一 一 那些 不 请 自 来 的 电子 邮件 。 它 
是 利用 Perl 实现 的 ， 并 可 以 与 邮件 服务 器 一 起 在 用 户 接收 到 垃圾 邮件 之 前 进行 过 滤 。 过 滤 机 制 包括 针 
对 邮件 标题 和 文本 的 分 析 、 贝 叶 斯 过 滤 和 DNS 的 黑 名 单 等 方法 。 为 了 灵活 性 ， 这 些 分 析 步 骤 是 以 插件 
形式 实现 的 

框图 

Mail::SpamAssassin (在 SpamAssassin. pm 中 实现 ) 是 一 种 使 用 一 组 规则 对 邮件 头 部 和 正文 
进行 测试 以 识别 垃圾 邮件 的 Perl 对 象 ， 图 8-27 给 出 了 分 析 邮 件 并 确定 它 是 否 是 垃圾 邮件 的 主要 执行 流 
程 。 check message text 方法 依次 调用 parse 和 check 用 于 垃圾 邮件 的 分 析 。 前 者 将 原始 邮件 内 
容 〔( 例 如， 从 MIME 结构 中 解码 ) 解析 为 Mail::SpamAssassin::Message 对 象 ， 以 便 后 面 对 垃 圾 
邮件 做 检查 ， 











Mail::SpamAssassin Parse 


| (get message text) 








check message text 














Check 
(check a mail if it is a spam) 








图 8-27 Mail::SpamAssassin 中 垃圾 邮件 分 析 的 主要 函数 
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在 Mail::SpamAssassin::PerMsgStatus 中 的 后 一 种 check 方法 将 运行 SpamAssassin 规则 检 
查 邮 件 消 息 。 该 进程 调用 用 于 各 种 分 析 方法 的 很 多 插件 ， 如 HeaderEval. pm 和 BodyEval. pm 用 于 解 
析 邮 件 头 部 和 正文 。 还 有 一 些 有 趣 的 插件 ， 如 用 于 计算 邮件 中 图 像 数 量 的 、 发 现 图 像 大 小 的 ImageIn- 
fo. pm 插件 等 。 检 查 累 积 表 示 垃 圾 邮件 可 能 性 的 得 分 。 换 和 句 话 说 ， 得 分 越 高 ， 邮 件 就 越 有 可 能 是 垃圾 
邮件 ， 如果 找 到 垃圾 邮件 并 局 用 贝 叶 斯 学 习 ，SpamAssassin 就 可 能 调用 Learn 方法 以 便 从 垃圾 邮件 报 
告 中 进行 学 习 。 

数据 结构 

Mail::SpamAssassin 对 象 在 SpamAssassin 中 有 多 个 重要 的 属性 ,它们 中 的 conf 用 于 配置 信 
息 ，plugins 用 于 插件 处 理 程序 和 多 个 路 径 变量 ， 如 规则 路 径 。 正 如 我 们 已 经 提 到 的 ， 在 分 析 垃 圾 邮 
件 期 间 会 调用 插件 处 理 程序 。 在 解析 邮件 后 ， 邮 件 消息 封装 在 Mail::SpamAssassin::Message 对 
象 中 ， 在 垃圾 邮件 分 析 期 间 ， 得 分 存储 在 Mail::SpamAssassin::PerMsgStatus 对 象 中 ， 

算法 实现 

SpamAssasin 通过 很 大 的 规则 集合 过 滤 电 子 邮 件 ， 规 则 文档 位 于 rmules 目录 下 的 #* .cf 文件 中 ,请 注 
意 ，SpamAssassin 以 词法 顺序 读 取 *. cf 以 便于 后 面 的 文件 可 以 覆盖 前 面 的 文件 。 规则 描述 了 垃圾 信息 
的 可 能 特征 ， 通 过 在 Perl 兼容 正则 表达 式 (PCRE) 中 指定 特征 。 如 果 找 到 了 特征 ， 指 示 垃 圾 邮件 的 得 
分 就 会 累积 。 例如， 在 用 于 分 析 邮 件 头 部 的 规则 文件 20 head tests. cf 中 的 样品 规则 如 下 : 

header FROM BLANK NAME From =~ /(2:N8|^)"" <\S+>/i 

describe FROM BLANK NAME From: contains empty name 


规则 检查 发 送 者 名 字 的 字符 是 否 是 空格 或 空 。 如 果 发 现 一 个 空白 名 ， SpamAssassin 给 分 数 增加 1.0 
(如 果 得 分 没有 显 式 地 指定 ) ， 这 有 助 于 确定 该 邮件 是 否 是 垃圾 邮件 .每 个 规则 文件 包含 像 上 述 这 样 的 
规则 用 于 垃圾 邮件 的 分 析 。 如 果 累 计 得 分 最 后 达到 了 user prefs 文件 中 指定 的 阅 值 (默认 为 5.0)， 
那么 将 正在 分 析 的 邮件 视 为 垃圾 邮件 。SpamAssassin 也 可 以 从 贝 叶 斯 学 习 中 确定 垃圾 邮件 (参见 sa- 
learn. raw 文件 中 的 源 代 码 ) 。 这 里 我 们 不 深入 研究 这 一 部 分 的 内 容 。SpamAssassin 可 以 根据 黑 名 单 或 
白 名 单 来 调整 得 分 。 例如， 假设 发 送 者 发 送 了 一 封 邮件 消息 具有 20 得 分 ,该 邮件 被 认为 是 垃圾 邮件 
如 果 稍 后 又 发 送 了 另 一 封 邮 件 ， 根 据 规则 得 分 为 2.0， 得 分 将 自动 调整 ， 通 过 增加 一 个 delta 值 
(mean -2.0) xfactor， 这 里 mean= (20+2.0)《X2 =11。 因 此， 除了 手动 配置 黑 名 单 或 白 名 单 外 ， 
还 可 以 自动 调整 。 

评估 某 些 复 杂 规 则 的 函数 可 以 用 插件 来 实现 ,例如 HeaderEval. pm 和 BodyEval. pm， 在 目录 
lib/Mail/SpamAssassin/Plugin 下 以 便于 扩展 。 例如 ,在 20_head tests. cf 文件 中 的 check 
illegal chars 用 于 检查 应 该 用 MIME 编码 的 8 位 和 其 他 非法 字符 。 评估 不 能 简单 地 用 PCRE 表示 ， 
因此 它 作为 一 个 插件 函数 来 实现 。 

spamd. raw 程序 是 SpamAssassin 的 后 台 守 护 进程 。 它 加 载 SpamAssassin 的 过 滤器 ， 然 后 侦 听 传 入 
的 请 求 来 处 理 邮 件 消息 。 在 默认 的 情况 下 它 监 听 783 端口 ， 但 端口 号 在 命令 行 是 可 配置 的 ， 当 接收 到 
一 个 连接 时 ， 它 产生 一 个 子 进程 处 理 SpamAssassin 中 来 自 网 络 的 邮件 ， 并 在 关闭 连接 之 前 将 处 理 过 的 
消息 转 储 返回 给 套 接 字 。 下 面 是 从 spamd. raw 产生 一 个 子 进程 的 实现 代码 


sub spawn { 





Spid =: Forkt)s 
die “spamd: fork: $!” unless defined $pid; 
if (Spid) 4 
## PARENT 
$children{$pid} = 1; 
infol(l“spamd: server successfully spawned child 
ECEERS5， Pid Spyid"ly 


else { 
## CHILD 


$spamtest=->call plugins("“spamd child init"); 


424 务 8 草 





spamd 依赖 于 SpamAssassin. pm， 它 是 SpamAssassin 的 主要 组 件 。 它 处 理 邮 件 的 解析 和 检查 ( 通 
过 规则 评估 、 学 习 、 黑 / 白 名 单 侦 听 等 ) ， 并 使 用 前 面 提 到 的 机 制 评估 邮件 是 否 是 垃圾 邮件 。 如 果 邮 件 
是 垃圾 邮件 ，SpamAssassin. pm 将 调用 report as _ spam 函数 返回 一 份 报告 。 

练习 

1， 为 什么 SpamAssassin 是 用 Perl 实现 的 ， 而 不 是 用 C 或 C++ 实现 的 ? 

2， 讨 论 使 用 贝 叶 斯 过 滤器 与 基于 规则 的 方法 的 优 缺 点 。 

性 能 问题 : 比较 入 侵 检 测 、 杀 病毒 、 垃 圾 邮件 过 滤 、 内 容 过 滤 和 P2P 分 类 

许多 网 络 安全 软件 包 利用 字符 串 匹 配 算法 来 匹配 特征 。 图 8-28 画 出 了 字符 串 匹配 孙 数 的 平均 执行 
时 间 ， 针 对 每 种 程序 处 理 一 个 字 节 的 分 组 数据 〈 即 应 用 头 部 和 有 效 载荷 ) 。 值 得 注意 的 是 ， 一 个 程序 
的 总 执行 时 间 随 着 字符 串 匹配 渔 数 消耗 时 间 的 增加 而 增长 。 入 侵 检 测 系 统 ， 即 Snort， 是 最 有 效 的 程 
序 ， 处 理 每 字 节 花费 的 时 间 小 于 10 ns; 而 杀 病 毒 程 序 ， 即 ClamAV， 消 耗 的 时 间 是 IDS 的 1000 倍 ， 即 
10 微 秒 。 其 他 程序 (包括 内 容 过 滤 ， 即 DansGuardian; 垃圾 邮件 过 滤 ， 即 SpamAssassin; P2P 分 类 ， 即 
17 过 滤器 ) 处 理 一 字 节 的 花费 大 约 为 100 ns。 


100000 




















二 10000 
时 
十 1000 二 
Ea 
100 = 
寺 
1014 口 CPU 时 间 
中 | DR 
| 匠 
ES x RS SS 消 - 
RR 
图 8-28 ”各 种 应 用 程序 的 执行 时 间 和 字符 串 匹 配 时 间 
这 些 程序 的 性 能 与 学 符 串 匹配 所 在 位 置 以 及 如 何 工 作 高 度 相 关 。 因 此 ， 表 8-4 中 从 花费 在 字符 串 


匹配 上 的 时 间 百 分 比 以 及 字符 串 匹配 应 用 的 位 置 对 5 个 软件 包 进 行 了 比较 。Snort 的 整体 性 能 是 有 效 
的 ， 因 为 它 采用 字 节 跳 转 的 字符 串 匹 配 ， 即 仅 检 查分 组 中 特定 偏 移 量 的 内 容 以 加 速 匹 配 任 务 。 这 是 因 
为 攻击 大 多 嵌入 在 特定 应 用 的 头 部 而 不 是 在 有 效 载 荷 中 。DansGuardian 通过 使 用 它 的 黑 名 单数 据 库 来 
授权 HTTP 分 组 ， 其 中 文档 记录 了 数 百 个 被 拒绝 的 URL、 文 件 类 型 和 关键 字 。DansGuardian 的 数据 库 比 
杀 病 毒 程序 的 更 简单 也 更 小 ， 后 者 通常 至 少 包 含 数 万 个 特征 。 因 此 ， 尽 管 DansGuardian 花费 在 字符 串 
匹配 上 的 时 间 百 分 比 高 于 ClamAV， 但 每 次 字符 串 匹 配 的 时 间 比 ClamAV 少 得 多 。 最 后 ，SpamAssassin 
通过 跳 过 电子 邮件 中 的 附件 来 降低 字符 串 匹 配 的 开销 ，L7 过 滤 通 过 仅 检 查 连接 的 前 几 个 分 组 减少 字符 
串 匹 配 的 开销 。 


表 8-4 应 用 程序 进行 的 字符 串 匹 配 
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8.5 总 结 

我 们 将 网 络 安全 问题 分 为 数据 安全 、 访 问安 全 和 系统 安全 。 数 据 安 全 涉及 通过 密码 学 保护 和 验证 
在 互联 网 上 传输 的 数据 。 加密 和 解密 的 密 钥 可 以 是 对 称 的 ， 也 可 以 是 不 对 称 的 。 前 者 计算 速度 更 快 ， 
但 问题 在 于 如 何 可 靠 地 分 发 密 钥 。 后 者 不 需要 分 发 对 称 密 钥 ， 但 对 于 大 数据 量 计算 时 间 会 很 长 。 安 全 
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协议 ， 如 安全 套 接 字 层 (SSL) ， 在 实际 网 络 协议 中 实现 这 些 加 密 机 制 . 除了 数据 保护 外 ， 数 字 签 名 和 
消息 认证 也 可 以 保证 收 到 的 数据 是 序 来 发 送 的 数据 

访问 安全 控制 内 部 和 外 部 网 络 之 间 的 访问 ， 因 此 在 两 个 网 络 之 间 的 流量 必须 遵守 网 络 管理 员 制 定 
的 规则 。 网 络 设备 如 防火 墙 ) 可 以 执行 访问 策略 。 这 些 设备 可 以 根据 IP 头 部 中 的 信息 、TCPZUDP 
端口 号 或 应 用 程序 类 部 和 有 效 载 集 来 过 滤 网 络 流量 

系统 安全 的 日 的 是 保护 系统 不 受 外 部 攻击 。 攻击 者 〈 也 许 是 一 个 用 动 攻 击 程序 ， 如 师 虫 ) 可 能 试 
图 找 凶 系统 的 汤 洞 ， 然 后 利用 汤 洞 控制 或 禁用 系统 。 防 御 系 统 应 该 在 攻击 者 之 前 找到 泥 洞 并 为 它们 打 
补丁 ， 找 到 可 能 的 攻击 ， 阻止 攻击 进入 系统 。 这 就 是 为 什么 要 有 汤 洞 扫描 、 入 侵 检 测 系统 、 病 毒 扫 描 
和 垃圾 邮件 过 滤 需 

攻击 者 和 防御 者 之 间 的 斗争 是 无 止境 的 - 由 于 我 们 的 日 常生 活 闫 重 依赖 于 互联 网 ， 所 以 网 络 安全 
已 成 为 重要 的 课题 如今， 只 用 加 密 来 保护 数据 是 不 够 的 。 攻击 者 将 尝试 利用 潜在 的 漏洞 并 以 隐身 的 
方法 访问 系统 ， 所 以 防御 者 就 需要 1) 尽 可 能 地 消除 源 洞 ; 2) 有 效 地 检测 攻击 。 前 者 不 是 一 件 小 事 
情 ， 因 为 软件 越 来 越 大 ， 也 越 来 越 复 杂 ， 所 以 寻找 可 能 存在 的 漏洞 也 越 来 越 困难 。 用 户 应 经 常 打 补丁 
来 消除 漏洞 。 后 者 也 是 一 个 挑战 ， 因 为 攻击 者 将 发 现 每 一 种 可 能 的 方式 来 逃避 检测 。 更 糟糕 的 是 ， 攻 
击 者 还 可 以 利用 加 密 来 保护 攻击 ， 人 例如， 加密 恶意 程序 或 者 加 密 在 互联 网 上 传输 的 恶意 内 容 ， 使 有 效 
的 检测 面临 比 以 往 更 大 的 挑战 ， 即 使 我 们 可 以 为 入 侵 检测 设计 一 种 智能 和 复杂 的 方法 ， 但 随 着 互联 网 
流量 的 增加 ， 我 们 还 应 该 关注 如 何 加 速 入 侵 检 测 ， 因 此 ， 利 用 硬件 加 速 或 者 多 核 处 理 需 来 加 速 入侵 检 
测 或 病毒 扫描 也 是 一 种 趋势 


常见 陷阱 
何 时 使 用 : DES、 3DES 和 AES 


给 出 了 多 种 对 称 加 密 算 法 ,如 DES、3DES 和 AES， 对 何 时 使 用 哪个 很 难 做 出 选择 。 正 如 本 章 所 讨 
论 的 ，DES 密 钥 只 有 56 位 ， 使 用 下 力 就 可 以 破解 帘 钥 。 这 就 是 为 什么 出 现 3DES, 但 3DES 在 计算 成 本 








上 增加 了 3 信 。 需要 记 住 的 是 ， 这 黄种 算法 设计 是 人 硬件 实现 的 ， 因 为 软件 实现 位 操作 〈 如 替代 和 置换 ) 
很 慢 ， 随 着 AES 在 2001 年 前 后 的 出 现 ， 它 越 来 越 受 欢迎 ， 可 以 在 知名 软件 (如 SSH 客户 端 或 Skype 


等 ) 中 发 现 它 。AES 最 终 在 软件 中 符 代 3DES， 因 其 在 实现 上 的 优 热 


无 状态 和 有 状态 的 防火 墙 

防火 墙 可 以 是 无 状态 的 也 可 以 是 有 状态 的 。 无 状态 防火 墙 单独 检查 分 组 ， 而 不 知道 连接 的 存在 。 在 
某 些 应 用 中 这 种 无 状态 性 质 可 能 是 不 够 的 。 例如， 当 FTP 客户 端 以 主动 模式 连接 到 服务 器 时 ， 它 将 告诉 
服务 带 它 监听 的 端口 用 于 服务 器 重新 连接 ， 如 果 客 户 端 一 侧 的 防火 墙 不 知道 FTP 命令 通知 的 监听 端口 ， 
那么 由 于 防火 墙 的 阻塞 ， 服 务 器 将 无 法 重新 连接 。 另 一 种 情况 是 ， 通 过 在 一 组 众所周知 的 端口 中 选择 一 
个 源 端口 ， 攻 击 者 可 能 使 流量 像 请 求 的 应 答 一 样 。 由 于 防火 墙 通常 允许 客户 端 从 内 部 网 络 连接 到 外 部 网 
络 ， 所 以 防火 墙 通常 在 响应 中 不 阻塞 流量 。 如 果 防 火 墙 没有 记录 在 连接 中 曾经 有 一 个 请 求 ， 那 么 它 就 没 
有 办 法 区 分 响应 是 假 的 还 是 真 的 。 那么 ， 攻 击 者 通过 伪造 响应 就 有 机 会 穿 透 防火 吵 。 在 这 些 情 况 下 ， 利 
用 有 状态 的 防火 墙 来 保持 有 关连 接 的 信息 可 以 解决 这 个 问题 ， 尽 管 这 会 需要 更 复杂 的 设计 。 


恶意 软件 : ”病毒 、 蠕虫 、 特洛伊 木马 、 后 门 程序 、 僵尸 及 其 他 
Malware (恶意 软件 ) 是 “malicious softwar” 的 缩写 ， 它 的 目的 是 危害 计算 机 系统 .恶意 软件 有 各 
种 形式 : 病毒 、 晴 虫 、 特 洛 伊 木 马 、 后 门 、 僵 尸 等 这些 术语 是 根据 其 传播 策略 或 恶意 行为 而 得 名 的 
然而 ,它们 也 被 公众 称 为 “病毒 *” 太 多 的 术语 看 起 来 很 混乱 也 容易 误导 ， 并 且 它 们 也 很 容易 被 误 用 
请 注意 ， 计 算 机 病毒 最 初 定义 为 :“ 通 过 修改 其 他 程序 以 便 包 括 自身 的 一 个 演变 的 副本 以 此 来 感染 
此 他 程序 的 一 种 程序 ,” 此 定义 不 再 能 够 形容 恶意 软件 的 多 样 性 ， 尽 管 使 用 术语 “病毒 ”来 指 代 所 有 
类 型 的 恶意 软件 是 不 正确 的 例如， 开源 病毒 扫描 器 实际 上 扫描 病毒 、 木 马 、 后 门 等 ), 但 网 络 安全 
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万 业 人 员 知 道 这 些 术 语 之 间 的 区 别 


警告 : 在 沙 盒 中 的 恶意 软件 分 析 

特征 匹配 是 一 种 用 于 恶意 软件 检测 的 常见 技术 .但 是 许多 澡 意 程序 可 以 通过 多 态 性 代码 很 容易 
地 逃避 检测 ， 这 是 使 用 相同 语义 的 扰 码 ， 或 者 通过 打包 (下 芝 或 加 密 代 码 ) ， 使 特征 匹配 或 代码 的 静 
态 分 析 难 以 进行 。 

另 一 个 常用 的 方法 是 在 沙 盒 上 运行 一 个 可 疑 程 序 ， 这 实质 上 是 一 台 虚 拟 机 。 由 于 执行 环境 是 虚拟 
的 ， 所 以 任何 对 环境 的 损害 可 以 很 容易 地 恢复 而 不 会 伤害 真正 的 系统 ， 并 且 运 行 条 件 也 容易 控制 。 动 
态 分 析 可 以 查看 调用 的 系统 调用 、 文 件 和 注册 表 的 变化 ， 以 及 在 运行 程序 中 的 网 络 活动 

尽管 动态 分 析 似乎 可 行 ， 但 晋 意 软件 编写 者 还 有 一 些 技巧 使 分 析 不 可 靠 。 首 先 ， 恶 意 软件 可 能 尝 
试 检测 虚拟 机 的 存在 。 如 果 虚 拟 机 存在 ， 溃 意 软件 会 假装 表现 良好 ， 并 正常 地 退出 。 据 我 们 所 知 ， 存 
在 的 虚拟 机 总 可 以 以 某 种 方式 被 检测 到 ， 甚 至 最 新 的 虚拟 化 技术 ， 如 Intel VT (虚拟 技术 )， 也 是 如 
此 。 其 次 ， 严 意 软件 的 恶意 行为 可 能 会 被 某 些 值 或 条 件 所 触发 。 例 如， 恶意 软件 仪 在 一 个 特殊 的 日 期 
或 者 与 一 个 给 定 的 文件 共存 时 才 会 被 激活 。 因 此 ， 单独 运行 就 难以 确定 有 关 的 恶意 行为 。 虽 然 有 些 研 
究 工 作 在 执行 过 程 中 尝试 分 析 可 能 的 分 支 以 找 出 隐藏 的 行为 和 触发 值 ,但 由 于 触发 条 件 的 多 样 性 ， 
们 的 方法 在 一 般 情 况 下 可 能 无 法 正常 工作 。 因此， 应 仔细 地 解释 恶意 软件 分 析 的 输出 ， 和 否则 会 有 漏 报 。 


进一步 阅读 


通用 问题 

以 下 是 对 计算 机 和 网 络 安 全 进行 一 般 介绍 的 教科 书 和 杂志 。 对 于 想 要 在 该 领域 深入 学 习 的 同学 

些 参考 书 为 迅速 掌握 基本 概念 提供 了 学 习 材 料 

“ W. Stallings, Cryptography and Nerwork Security, 4th edition, Prentice Hall, 2005. 

“C. Kaufman, R. Perlman, and M. Speciner, Network Security: Private Communication in a Public 
World, Prentice Hall, 2002. 

* W. Stallings, Network Security Essentials: Applications and Standards, 3rd edition, Prentice 
Hall, 2006. 

“IEEE Security & Privaey Magasine. 


加 密 和 安全 协议 
下 面 选择 的 书籍 和 文件 与 加 密 和 安全 协议 有 关 。 加 密 技 术 本 身 是 一 个 广泛 的 研究 领域 ,不 可 能 在 短 
短 的 几 广 中 介绍 清楚 。 首 先 要 对 该 领域 有 一 个 很 好 的 了 解 。 我 们 也 为 下 面 的 安全 协议 提供 一 些 参 考 资料 。 
“J. Katz and Y. indell, Introduction to Modern Cryptography: Principles and Protocols, Chapman & 
Hall ,2007. 
* R. Rivest, “The MD5 Message-DigestAlgorithm,” Apr. 1992, http: /A/sunsite. auc. dk/ RFC/ rte/ rtel1321. html. 
* MIT distribution site for PGP (Pretty Good Privacy) http: //web. mit. edu/ network/ pgp. html. 
”The OpenSSH Project, http: //www. openssh. com 
“5S. R. Fluhrery I Mantin, and A. Shamir, “ Weakness in the Key Scheduling Algorithm of RC4,” Lec- 
ture Notes in Computer Science (LNCS), Vol. 2259, pp. 1-24, Aug. 2001. 


ni 
见 的 网 络 安全 设备 包括 防火 墙 、 虚 拟 专用 网 络 、 入 侵 检 测 系统 、 杀 毒 系统 、 内 容 过 滤器 及 其 他 
前 3 ry 了 了 防火墙、VPN 设施 和 一 个 著名 的 入 侵 检测 系统 Snort。 第 4 本 书 介绍 了 一 一 些 网 络 安全 监 
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控 工 有 具 和 技术 ,最 后 两 篇 是 广 为 引用 的 有 关 非 Snort 的 入 侵 检 测 以 及 检测 端口 扫描 的 论文 


“EE. D. Zwicky, S. Cooper, and D. B. Chapman, Building Internet Firewalls, 2nd edition, O°” Reilly 


Media. 2000. 

“RR. Yuan, T. Strayer, and W. T. Strayer, Virtual Private Networks: Technologies and Solutions, Add- 
isonWesley, 2001. 

“ B. Caswell, J. Beale, and A. R. Backer, Snort IDS and IPS Toolkit, Syngress, 2007. 
R. Bejtlich, The Tao of Network Security Monitoring: Beyond [ntrusion Detection, Addison — 
Wesley, 2004. 

* V. Paxson, “Bro: A System for Detecting Network Intruders in Real = Time,” USENIX Security Symp.,， 
Jan. 1998. 

“J. Jung, V. Paxson, A. Berger, and H. Balakrishnan, “ Fast Portscan Detection Using Sequential 


Hypothesis Testing,” IEEE Symp. On Security and Privacy, May 2004. ” 


黑客 技术 


什 次 ,。 


~ Scambray, S. MceClure, and G. Kurtz, Hacking kxposed: Network Security Secrets & Solutions, 6th, 


IE 
ID 1 


下 列 书 籍 介绍 了 黑客 软件 、 系 统 和 网 络 潮 洞 的 技术 。 读 者 可 以 从 这 些 书籍 的 材料 中 知道 黑客 会 做 
最 后 4 篇 是 有 关 因 特 网 上 攻击 技术 和 事件 的 广 为 引用 的 论文 。 





McGraw — Hill, 2009. 

"J. Enckson, Hacking: The Art of Exploitation, 2nd edition, No Starch Press, 2008. 

*S. Harris, A. Harper, C. Kagle, and J Ness, Gray Hat Hacking: The Ethical Hacker’s Handbook, 2nd 
edition, McGraw-Hill ，2007. 

* G. Hoglund and G. MeGraw, Exploiting Software: How to Break Code, Addison - Wesley, 2004. 

“CC. LL Schuba, 1 V. Krsul, M. G. Kuhn, E. H. Spafford, A. Sundaram, and D. Zamboni, “ Analysis 
of a Denial of Service Attack on TCP,™” JEEE Symp. Security & Privacy, May 1997. 

* S. Staniford, V. Paxson, and N. Weaver, “ How to Own the Internet in Your Spare Time,” USENIX Se- 
curity Symposium, Aug. 2002. 

* M. Handley and V. Paxson, “ Network Intrusion Detection: Evasion, Traffic Normalization and End — 
to-End Protocol Semantics,” USENIX Security Symposium, Aug. 2001. 

*M. A. Rajab, J. Zarfoss, F. Monrose, and A. Terzis, “A Multifaceted Approach to Understanding the 
Botnet Phenomenon,” ACM Internet Measurement Confer ~ ence (IMC), Oct. 2006. 


意 软件 检测 和 分 析 
第 1 本 书 介绍 了 为 捕获 攻击 和 恶意 软件 所 建立 的 蜜 钢 。 接 下 来 的 两 本 书 则 为 病毒 研究 和 实现 实践 


以 i rootkits 提供 了 很 好 的 概述 。 最 后 3 本 是 广泛 引用 的 有 关 恶 意 软 件 分 析 的 论文 。 


* N. Provos and T. Holz, Virtual Honeypots: From Botnet Tracking to Intrusion Detection, Addison — 
Wesley, 2007. 

“ P. Szor, The Art of Computer Virus Research and Defense, Addison - Wesley, 2005. 

“ B. Bluanden, The Rootkit Arsenal: Escape and Evasion in the Dark Corners of the System, Jones & Bar- 
lett, 2009. 

“CC. Willems, T. Holz, and F. Freiling, ”Toward Auto ~ mated Dynamic Malware Analysis Using 
CWSand = box,” /LEEE Security & Privacy, Vol.5, Issue 2, pp.32 39, Mar. 2007. 

"GCG. Gu, P. Porras, V. Yegneswaran, M. Fong, and W. Lee, “ BotHunter: Detecting Malware Infection 
Through IDS - driven Dialog Correlation,” USENIX Security Symposium ，June 2007. 

* N. Provos, D. McNamee, P. Mavrommatis, K. Wang, and N. Modadugu, “The Ghost in the Brow- 
ser: Analysis of Web - based Malware,” USENIX Workshop on Hot Topics in Botnets ( HotBots), 





Apr. 2007.” 


常见 问题 解答 


将 私 钥 算 法 与 公 钥 算法 进行 对 比 〈 上 比较 它 们 的 计算 复杂 性 、 安 全 性 和 使 用 ) 。 

答 : 计算 的 复杂 性 : 公 钥 算法 > 私 钥 算 法 。 

安全 性 : 公 钥 算法 > 私 钥 算法 : 

用 途 : 公 钥 算法 用 于 小 数据 ， 私 钥 算法 用 于 大 数据 : 

我 们 如 何 才能 将 私 钥 算法 与 公 钥 算法 结合 起 来 ? 

答 : 使 用 公 包 算法 (如 RSA) 传输 私 钥 算 法 (如 3DES) 中 使 用 的 密 钥 。 一 且 完 成 ， 就 可 以 使 用 私 
铀 算法 进行 数据 加 密 和 解密 


.我 们 在 何 种 情况 下 使 用 传输 模式 IPSec 和 隧道 模式 IPSece? 它们 加 密 了 分 组 中 的 哪些 部 分 ? 


答 : 传输 模式 : 用 在 远程 客户 端 和 办 公 室 之 间 ， 仅 加 密 TCP 或 UDP 分 段 。 
隧道 模式 : 用 在 分 支 机 构 之 间 ， 加 密 整个 下 分 组 。 


4， 在 隧道 模式 IPSec 中 ， 如 果 认 证 是 在 加 密 之 前 完成 ， 那 么 在 分 组 中 将 有 什么 样 的 头 部 顺序 ? 〈 头 部 
包括 AH、ESP、IP、TCP 或 UDP。) 
答 : IP、ESP、IP、AH、TCP 或 UDP。 

5， 分 组 过 滤器 与 应 用 代理 防火 墙 之 间 有 什么 不 同 ? ( 比较 它们 的 目的 ， 以 及 它们 在 Linux 系统 中 的 何 
处 实现 ,) 
答 : 分 组 过 泪 需 防火 墙 : 基于 五 元 组 的 访问 控制 ,在 内 核 (iptables) 中 实现 。 应 用 代理 防火 墙 : 
基于 应 用 请 求 和 响应 的 访问 控制 ， 在 一 个 代理 守护 程序 中 (FWTK 或 squid) 中 实现 。 

6， 病 毒 与 晴 虫 有 什么 不 同 ? (比较 它们 的 特性 并 复制 模型 .) 
答 : 病毒 : 附加 在 文件 上 的 程序 ， 通过 电子 邮件 附件 或 Web 网 页 。 
蠕虫 : 一 个 独立 的 程序 ， 通 过 安全 漏洞 进行 攻击 

7. DoS (拒绝 服务 ) 与 缓冲 区 洪 出 攻击 有 哪些 不 同 ?( 比较 它们 的 目的 和 操作 。) 
答 : DoS: 耗 尽 或 阻塞 服务 资源 ， 发 送 大 量 的 耗 尽 服务 融 的 请 求 或 者 仅 发 送 一 个 垩 意 请 求 来 运行 服 
务 器 进入 阻塞 或 死 锁 模式 
缓冲 区 溢出 攻击 : 在 受害 者 主机 上 放置 一 个 后 门 程序 ， 通 过 传递 一 个 过 大 的 参数 来 使 受害 者 主机 的 
栈 程序 计数 器 及 其 程序 代码 产生 游 出 。 

8. 一 个 IDS (如 Snort) 在 什么 情况 下 将 会 有 误 报 或 漏 报 ? 
答 : 误 报 : 特征 太 短 并 且 正 常 文本 中 碰巧 包含 特征 。 
漏 报 : 特征 不 够 通用 未 能 匹配 文本 中 的 入 侵 . 

练习 

动手 练习 

1. erypt 函数 是 根据 DES 算法 及 其 变种 来 进行 密码 加 密 的 。 请 编写 一 段 程 序 找到 利用 crypt 函数 (其 用 
法 参见 帮助 页 面 ) 将 密码 加 密 为 “xyNev0eazF87U”。 读 者 可 以 使 用 蛮 力 法 或 任何 其 他 联 明 的 方法 
(首选 ) 进行 猜测 。 密 码 并 不 是 一 个 随机 字符 串 ， 所 以 读者 有 机 会 来 破解 它 。 

2， 设置 iptables 来 阻塞 到 某 一 个 卫 地 址 的 外 出 连接 ， 并 检查 阻塞 是 否 有 效 。 

3. 在 使 用 RSA 的 公 钥 系统 中 ，Bob 拥有 私 钥 d=5、n =35， 得 到 给 他 的 密 文 c=10。 那 么 明文 MM 是 
什 低 ? 

4. 使 用 Nessus (http: /www. nessus. org/nessus) 找到 在 你 的 子 网 中 主机 上 运行 的 服务 ， 并 指明 服务 
是 什么 。 是 否 有 服务 没有 运行 在 众所周知 的 端口 上 ， 如 Web 服务 没有 运行 在 端口 80 上? 

5， 运 行 Snort 监听 指定 接口 上 的 流量 。 流 量 越 多 越 好 。Snort 能 够 支持 哪些 警报 ”你 认为 它们 是 误 报 


吗 ? 你 可 以 将 流量 捕获 到 一 个 文件 中 并 让 Snort 离线 读 取 文件 。 因此， 你 有 机 会 手动 分 析 产 生 警 报 
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的 分 组 或 连接 。 

跟踪 Snort 源 代码 的 预 处 理 器 目录 下 的 portscan. ce 和 spp。 portscan. c 中 的 源 代码 。 简 要 地 描述 Snort 
如 何 检 测 流 量 跟 踊 中 的 端口 扫描 。 

找 出 当前 Snort 规则 集中 有 多少 条 规则 。 

跟踪 matcher-ac. c 和 matcher-bm. c 中 的 源 代码 ， 并 描述 ClamAV 如 何 扫 描 病 毒 特征 。 

使 用 UPX 打包 器 (http: /Aupx. sourceforge. net) 以 PE 格式 打包 一 个 Windows 二 进 制 可 执行 文件 。 
在 这 之 后 ,使 用 PE 阅览 器 ， 如 Anywhere PE viewer (http: A//upx. sourceforge. net/)， 指 出 已 经 发 生 
了 哪些 改变 。 














书面 练习 

1. 在 DES 系统 中 每 次 迭代 的 主要 加 密 函 数 是 什么 ? 

2. 计算 32、56、128 和 168 位 密 钥 的 破解 时 间 ， 如 果 单 次 解密 时 间 分 别 为 1ps 和 10™"ps。 

3， 在 一 个 使 用 RSA 的 公 钥 系统 中 ， 公 钥 为 e=5、n=35，Trudy 拦截 到 密 文 C=10。 那 么 明文 凡是 什么 ? 

4， 在 软件 中 执行 DES (或 者 3DES) 算法 有 效 吗 ? 为 什么 要 使 用 硬件 加 速 实现 ? 

5， 数 字 签 名 的 需求 是 什么 ? 

6.， 网 络 防 火 墙 和 应 用 层 防火 墙 之 间 的 区 别 是 什么 ? 

7. DDoS 攻击 的 步骤 是 什么 ? 2001 年 10 月 Nimda 蠕虫 的 攻击 步骤 是 什么 ? 

8.， 在 IPSec 中 通过 使 用 认证 头 部 (AH) 和 加 密 安 全 有 效 载 荷 (ESP) ， 如 何 同时 实现 认证 和 隐私 安全 ? 

9. 一 次 攻击 如 何 拥有 大 量 主机 以 便 发 起 一 次 分 布 式 拒绝 服务 (DDoS) 攻击 ”请 讨论 可 能 的 方法 。 

10. 一 个 NIDS 有 人 能力 “看 到 ”网 络 上 的 分 组 ， 因 此 它 就 有 机 会 扫描 分 组 有 效 载 苟 中 的 病毒 。 但 是 在 实际 
中 却 不 是 这 样 的。 尝试 这 么 做 会 有 哪些 困难 ? 

11. NIDS 和 警报 中 产生 误 报 的 可 能 原因 有 哪些 ? 

12. 请 列 出 一 个 不 能 被 Snort 规则 检测 到 的 攻击 例子 ， 即 使 你 尝试 写 一 个 新 的 规则 也 检测 不 到 。 为 什么 
它 不 能 被 规则 检测 到 ? 

13， 躲 避 NIDS 分 析 的 可 能 技术 是 什么 ?请 列举 出 其 中 几 个 。 

14. ClamAV 声称 有 一 个 非常 大 的 特征 集 (大 于 500 000)。 在 实际 中 即 在 互联 网 上 真 的 有 这 么 多 病毒 

















吗 ? 需要 这 么 多 特征 的 可 能 理由 是 什么 ? 
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许多 组 织 机 构 和 个 人 曾经 为 数据 通信 做 出 过 突出 的 贡献 。 人 然而 ， 这 里 不 可 能 一 一 列举 所 有 的 人 
由 于 本 书 的 主题 是 互联 网 体系 结构 及 其 开源 实现 ， 所 以 我 们 将 重点 放 在 两 个 部 分 ， 即 互联 网 工程 任务 
组 (IETF) 和 儿 个 开源 社区 。 前 者 定义 互联 网 的 体系 结构 ， 南 后 者 以 开放 源 代码 的 方式 加 以 实现 。 其 
他 标准 机 构 和 网 络 人 研究 团体 也 在 发 展 进 化 中 发 挖 了 重要 作用 。 因 此 具有 成 就 了 如 今 的 互联 网 市 自己 却 
逐渐 消失 了 的 技术 ， 它 们 在 演变 中 被 淘汰 了 .尽管 在 本 附录 中 给 出 的 材料 都 是 非 技术 性 的 但 它们 给 
出 了 一 条 回顾 今天 互联 网 所 有 一 切 的 途径 。 了解 进化 及 其 背后 的 驱动 力 会 让 读者 欣赏 这 些 努 力 工 作 ， 
并 将 鼓励 读者 也 投身 于 正在 进行 的 演变 之 中 

与 许多 其 他 标准 组 织 不 同 ，IETF 并 没有 一 个 明确 的 成 员 身份 制度 ， 并 且 它 是 以 自 底 向 上 的 而 不 是 
自 上 而 下 的 方式 运作 的 。 欢 迎 任何 人 参与 其 中 ， 其 中 活跃 的 人 员 将 会 领导 工作 。 你 不 必 为 参与 的 工作 
支付 费用 。 此外, 边 制定 边 实施 ， 与 许多 组 织 中 “ 先 指定 后 实施 ”相似 - “我们 拒绝 国王 、 总 统 和 投 
票 。 我 们 相信 粗略 地 达成 一 致意 见 和 运行 代码 ”， 互 联网 体系 结构 的 一 个 重要 贡献 者 David Clark 曾经 
这 样 说 ， 设 计 一 个 标准 RFC 文档 的 过 程 看 起 来 很 松散 ,但 是 一 旦 标准 达成 一 致 就 要 至 少 转换 成 一 个 
(最 好 有 两 个 ) 扎实 的 和 公开 提供 的 实现 。 我 们 可 以 说 ， 互 联网 体系 结构 的 标准 化 进程 具有 开源 精神 ， 
可 以 作为 验证 建议 的 解决 方案 能 够 很 好 工作 的 一 种 方法 

虽然 开源 运动 起 始 于 1984 年 ， 也 就 是 于 1969 年 建立 第 一 个 互联 网 节点 的 15 年 后 ,但 它 是 与 互联 
网 携手 工作 的 ， 因 为 它们 能 够 相互 利用 。 互 联网 提供 了 指导 性 的 标准 ， 以 确保 各 种 开源 实现 的 互 操作 
性 ， 并 用 来 充当 协调 分 布 在 世界 各 地 研究 努力 的 一 个 平台 。 开源 运动 促进 了 互联 网 的 “ 边 制 定 边 实 
施 ” 的 标准 化 进程 ,这 有 助 于 吸引 全 世界 的 贡献 者 和 有 用户。 如果 它 们 不 是 开源 代码 ， 就 很 难 向 世界 各 
地 的 用 户 分 发 这 些 运 行 代码 以 便于 被 采用 或 者 协调 分 布 的 工作 来 使 代码 得 以 固定 和 运行 。 

除了 IETF 外 ， 还 有 一 些 研 究 机 构 和 标准 机 构 也 在 帮助 设计 协议 或 实现 所 设计 的 协议 。 南 加 州 大 学 
(USC) 的 信息 科学 研究 所 (ISTD 设计 并 实施 了 多 个 关键 的 协议 ,伯克利 的 国际 计算 机 科学 研究 所 
(1CST) 开发 了 一 些 重要 的 算法 和 工具 - 卡 内 基 - 梅 降 大 学 的 计算 机 应 急 反应 小 组 (CERT) 协调 安全 
威胁 管理 ， 欧 洲 电信 标准 协会 (ETSI) 制定 了 移动 通信 标准 。 最 流行 的 链 路 层 协议 标准 ， 包 括 以 太 网 
和 无 线 局 域 网 ， 是 由 电气 和 电子 工程 师 学 会 (IEEE) 学 会 制订 的 。 与 此 同时 ， 许 多 人 研究 人 员 为 互联 网 
上 使 用 的 体系 结构 、 协 议 或 算法 做 出 过 重要 的 贡献 。 所 有 这 些 贡 献 应 该 得 到 承认 

当 我 们 回顾 名 人 录 时 ,我们 不 仅 应 该 学 习 保留 下 来 的 技术 也 应 该 党 习 过 时 的 技术 。 它 们 可 能 是 在 
废除 之 前 曾经 盛 极 一 时 的 “ 恕 龙 ”， 或 者 它们 曾经 是 吸引 了 巨大 的 投资 但 最 终 破裂 的 “泡沫 ”。 它们 失 
败 的 原因 可 能 是 技术 上 的 也 可 能 是 市 场 上 的 。 一 项 需要 三 大 的 开销 进行 互 操作 或 者 蔡 换 现 有 技术 的 车 
越 技 术 ， 可 能 作为 历史 的 一 部 分 而 终结 。 处 于 劣势 但 更 简单 的 解决 方案 可 能 会 拖 垮 更 多 高 级 的 苋 争 对 
手 。 达 成 的 共识 是 “无 处 不 在 的 轩 ， 或 一 切 都 通过 I 和 IP 超越 一 切 ”， 同样,“ 以 太 网 无 处 不 在 ”( 进 
入 办 公 室 以 及 家 庭 ) 已 经 成 为 男 一 个 共识 。IP 和 以 太 网 并 非 在 所 有 方面 都 是 优秀 的 ， 但 它们 已 经 占据 
了 主导 ， 并 将 很 好 地 延续 到 未 来 ， 

在 A.1 节 中 ,我 们 首先 回顾 IETF 的 历史 ， 以 及 它 是 如 何 生成 RFC 的 ,统计 数据 显示 已 有 超过 
6000 份 的 RFC 文档 : 然后 我 们 将 在 A. 2 节 中 介绍 几 个 生产 内 核 运 行 代码 的 开源 社区 ， 超 过 10 000 个 
软件 包 ， 其 至 ASIC 硬件 设计 。 它们 分 别 从 项 部 〈 即 应 用 程序 ) 、 中 间 〈 即 内 核 和 驱动 程序 ) ， 下 到 底 
层 人 硬件 ( 凤 ASIC 设计 ) 开放 系统 。 这 些 开 源 资 源 者 是 可 以 访问 的 。 网络 研究 社区 和 其 他 标准 团体 将 
在 A.3 节 中 介绍 。 最 后 , 在 A.4 节 , 我 们 回顾 过 去 的 已 经 过 时 的 技术 ， 并 试图 解释 它们 为 什么 会 
这 样 


A.1 IETF， 定义 RFC 
我 们 打算 在 这 里 回答 很 多 问题 ， 互 联网 的 标准 化 机 构 是 如 何 演变 的 呢 ? 是 谁 扮 演 着 重要 的 角色 ? 
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IETF 如 何 定 义 RFC? 为 什么 会 有 这 么 多 的 RFC? 这 些 RFC 在 定义 协议 栈 的 各 个 层次 中 是 如 何 发 布 的 ? 
这 些 问题 的 答案 应 该 能 够 打开 理解 及 参与 IETF 活动 的 大 门 


A. 1. 1 IETF 的 历史 

在 20 世纪 70 年 代 未 ， 认 识 到 互联 网 的 发 展 是 伴随 着 对 其 感 兴 趣 的 研究 团体 规模 的 增长 ， 因 此 和 急 
需 一 种 协调 机 制 ，DARPA 的 互联 网 项 日 经 理 Vint Cerf 组 建 了 多 个 协调 机 构 。1983 年 ， 这 些 机 构 之 一 
变 成 了 管理 多 个 任务 组 的 互联 网 活动 委员 会 (IAB) 。 互联 网 工程 任务 组 (IETF) 当时 只 是 许多 IAB 任 
务 组 之 一 。 后 来 ， 更 加 实际 的 和 工程 方面 的 互联 网 显著 增长 。 这 种 增长 导致 了 在 1985 年 参加 IETF 会 
议 的 人 数 爆 炸 性 地 增加 ， 时 任 IETF 主席 的 Phil Gross 被 迫 以 工作 组 (WGS) 的 形式 为 IETF 创建 子 
机 构 ， 

这 种 增长 还 在 继续 ， IETF 将 工作 组 合并 成 为 区 域 ， 并 为 每 个 区 域 指定 区 域 董 事 ， 互 联网 工程 指导 
组 (IESG) 由 地 区 董事 组 成 IAB 认识 到 正 TF 日 痊 增 加 的 重要 性 ， 并 重组 了 标准 处 理 过 程 ， 明 确认 可 
IESG 作为 主要 标准 审查 机 构 。IAB 也 进行 了 重组 ， 以 便 使 其 他 的 任务 组 〈( 除 IETF 外 ) 合并 到 互联 网 
研究 任务 组 (IRTF) 中 。 1992 年 IAB 进行 了 重组 ， 并 更 名 为 互联 网 体系 结构 委员 会 ， 在 互联 网 协会 的 
监督 下 运行 。 一 个 更 加 “对 等 ”的 关系 在 新 的 IJAB 和 ESG 之 问 定义 ， 与 ETF 和 IESG 一 起 为 标准 批 
准 承 担 更 大 的 责任 。 

IETF WGs 成 员 之 间 的 合作 主要 通过 邮件 列表 ， 并且 每 二 年 举办 一 次 会 议 。 互 联网 用 户 可 以 免费 参 
加 IETF， 因 此 要 做 的 只 是 通过 订阅 具体 工作 组 的 邮件 列表 就 可 以 ， 通 过 它们 可 以 与 工作 组 的 其 他 成 员 
通信 定期 会 议 旨 在 能 够 让 积极 的 WG 提出 并 讨论 他 们 的 工作 成 果 : 截至 2010 年 3 月 ，IETF 共 举 行 了 
76 次 会 议 。 每 次 会 议 为 期 6~7 天 ， 会议 地 点 由 主办 机 构 选择 


历史 演变 : 在 IETF 中 的 名 人 录 

近 40 年 来 ， 总 共 已 发 布 了 超过 6000 份 RFC 文档 ， 最 著名 的 贡献 者 是 Jonathan Postel， 他 从 1969 年 
开始 直到 1998 年 去 世 ， 一 直 担 任 RFC 的 编辑 。 他 参与 了 200 多 个 RFC， 其 中 大 部 分 是 互联 网 的 基础 协 
议 ， 如 已 协 议和 TCP 协议 ， 仅 次 于 Jonathan Postal 的 是 Keith McCloghrie， 是 参与 RFC 第 二 最 多 的 人 ， 
Keith 有 94 个 RFC， 其 中 大 部 分 是 有 关 SNMP 和 MIB 的。 表 A-l 列 出 了 按照 发 布 RFC 数量 排名 的 前 10 





表 A-1 按 数 量 排序 的 前 10 名 RFC 贡献 者 























名 字 RFC 的 数量 主要 贡献 名 字 RFC 的 数量 | 主要 贡献 
Jonathan B. Postel 202 IP、TCP UDP、ICMP 、FTP Henning Schulzrinne 62 SIP、RTP 
Keith MeCloghrie 94 SNMP、MIB 、COPS Bob Braden 59 FTP、 RSVP 
Marshall T. Rose 67 | POP3.. SNMP Jonathan Rosenberg 52 SIP、STUN 
ak Rekhter | 62 | BGP4 、MPLS ea Aboba 48 RADIUS 、EAP 











A. 1.2 RFC 过 程 

IETF 将 WG 分 为 8 个 领域 ， 每 个 领域 都 包含 一 两 个 区 域 董 事 。 大 多 数 的 RFC 在 经 过 特定 WG 的 内 
部 工作 后 发 布 。 图 A-l 显示 了 RFC 过 程 。 发 布 RFC 需要 通过 多 个 阶段 ， 每 个 阶段 由 IESG 来 审查 。 为 
了 发 布 一 个 RFC， 首 先 发 布 互联 网 草案 (1D) ， 将 ID 放 在 将 被 审查 的 IETF 互联 网 草案 编号 目录 中 。ID 
发 表 一 段 时 间 后 〈 至 少 两 周 ) ，ID 的 作者 就 可 以 向 RFC 编辑 发 送 一 封 电子 邮件 ， 请 求 ID 进入 知识 性 的 
或 实验 性 的 RFC， 然 后 RFC 编辑 要 求 IESG 审查 该 ID。 在 它 成 为 RFC 之 前 ,该 草案 的 作者 可 以 修改 其 
内 容 。 如 果 在 6 个 月 内 ID 没有 修改 或 者 成 为 RFEC， 那 么 它 将 会 从 IETF 的 ID 目录 中 删除 ， 并 通知 作 
者 。 同 时 ， 如 果 ID 通过 审查 并 准备 成 为 RFC， 那 么 其 作者 将 有 48 小 时 检查 文档 错误 ， 如 不 正确 的 拼 
写 错 误 或 错误 引用 的 文件 。 一旦 它 成 为 RFC， 它 的 内 容 就 不 允许 进行 修改 了 。 

如 图 A-l 所 示 ， 每 个 RFC 有 一 个 状态 ， 包 括 未 知 、 标 准 (STD) 、 历 史 、 目 前 最 佳 实践 (BCP) 和 
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一 般 (知识 性 的 和 实验 性 的 )。 未 知 状 态 分 配给 IETF 早期 发 布 的 大 多 数 RFKC， 自 1989 年 10 月 以 来 一 
直 没 有 再 次 出 现 过 。 标准 STD 状态 表示 一 个 互联 网 标准 ，BCP 状态 表示 完成 某 事 的 最 佳 方式 ， 而 一 般 
状态 表示 RFC 还 没有 准备 好 ， 或 者 可 能 还 不 打算 成 为 标准 。 一 个 RFC 必须 经 历 三 个 阶段 才 成 为 一 个 
STD: 建议 STD 、 草 案 STD 和 标准 STD。 这 些 阶段 称 为 成 熟 等 级 ， 也 就 是 说 ， 标准 STD 状态 的 RFC 应 
该 通过 所 有 这 些 阶段 。 到 不 同 阶段 的 步骤 有 不 同 的 限制 。 例 如 ， 如 果 一 个 RFC 是 稳定 的 ， 解决 了 已 知 
的 设计 问题 ， 相 信和 已 得 到 很 好 理解 ， 并 且 已 经 引起 团体 的 足够 兴趣 ,被 认为 是 有 价值 的 ， 那么 它 将 被 
授予 建议 STD 状态 。 为 了 获取 草案 STD 状态 ,一 个 建议 STD RFC 必须 至 少 有 两 个 独立 和 互 操作 的 实现 
并 且 在 处 理 队列 中 至 少 6 个 月 。 为 了 从 草案 STD 前 进 到 STD 状态 ，RFC 就 必须 有 重大 的 实现 和 成 功 的 
操作 经 验 ， 而 且 也 必须 至 少 在 处 理 队 列 中 4 个 月 。 一 个 规范 被 一 个 最 新 的 规范 所 取代 或 者 因为 某 种 原 
因 被 认为 是 过 时 的 ,那么 就 被 赋予 历史 状态 
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一 一 一 > 由 IESG 审 查 和 批准 
---- > 由 IESG 审 查 和 建议 ， 由 REFC 编 辑 批准 
图 A-1 RFC 过 程 
BCP 过 程 与 建议 STD 过 程 相似 。 将 RFC 提交 给 I[ESG 进行 审查 ， 一 旦 得 到 IESG 的 批准 ， 过 程 就 结 
束 ， 知 识 性 的 和 实验 性 的 过 程 与 标准 STD 和 BCP 的 过 程 不 同 。 处 于 这 些 非 标准 状态 的 将 要 发 布 的 文档 
既 可 以 通过 正 TF WG 提交 给 IESG， 也 可 以 由 个 人 直接 提交 给 RFC 编辑 。 在 第 一 种 情况 下 ，IESC 仍然 
负责 审查 和 批准 文档 ， 与 在 标准 STD 过 程 中 一 样 。 但 是 在 第 三 种 情况 下 ， 由 RFC 编辑 做 出 最 终 的 决 
策 ，IESG 仅 审 查 和 提供 反馈 。RFC 编辑 首先 将 此 文档 作为 一 个 互联 网 草案 发 布 ， 等 待 两 周 来 自 社团 的 
评价 ， 从 他 的 专业 角度 判断 它 是 否 适 于 知识 性 的 或 实验 性 的 RFC， 然 后 做 出 接受 或 拒绝 。IESG 审查 文 
档 并 建议 是 否 需 要 进行 标准 化 。 如 果 文 档 被 建议 进行 标准 化 并 且 作 者 同意 ， 它 将 进入 标准 STD 过 程 ; 
否则 ， 它 将 作为 知识 性 的 或 实验 性 的 RFC 发 表 。 图 A-1 显示 了 用 于 标准 STD、BCP 和 一 般 状 态 的 RFC 
过 程 
RFC 序号 是 根据 批准 顺序 分 配 的 。 某 些 序号 具有 特殊 的 含义 。 例 如 ， 以 99 为 结尾 的 RFC 序列 号 
表示 对 接 下 来 的 99 份 RFC 做 出 简短 介绍 ， 而 以 00 结尾 的 序列 号 表示 IAB 官方 协议 标准 ， 它 提供 当前 
RFC 标准 的 简短 状态 报告 。 对 此 感 兴 趣 的 读者 可 以 进一步 参阅 RFC 2026: 互联 网 标准 过 程 


A. 1.3 ”RFC 统计 数据 

截至 2010 年 11 月 ，RFC 序号 已 分 配 到 了 6082。 其 中 ， 有 205 个 序列 号 未 使 用 ， 所 以 只 有 5877 份 
RFC。 要 了 解 如 何 分 配 RFC， 我 们 编制 了 对 这 些 RFC 的 统计 数据 。 图 A2 给 出 的 统计 表明 前 3 名 RFC 
状态 分 别 是 知识 性 的 、 提 案 标 准 的 和 未 知 的 。 这 并 不 奇怪 ，RFC 1796 指出 :“ 并 非 所 有 的 RFC 都 是 标 
准 ”。 发 布 一 个 知识 性 的 RFC 比 通 过 STD 过 程 更 容易 。 要 成 为 一 个 标准 ， 需 要 得 到 广泛 的 证 明 ， 所 以 
很 多 的 RFC 停留 在 提案 标准 的 水 平 。 最 后 ， 未 知 状态 排名 第 三 ， 因 为 IETF 还 没有 发 展 到 成 熟 水 平和 
市 在 过 程 ， 直 到 RFC 1310 出 现 。 
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图 A-2 RFC 状态 统计 


表 A-2 统计 与 四 层 中 知名 协议 相关 联 的 RFC 总 数 。 统 计 信息 包括 数据 链 路 层 的 点 到 点 协议 (RFC 
1661) 、 网 络 层 的 互联 网 协议 (RFC 791)、 传 输 层 的 传输 控制 协议 (RFC 793)， 以 及 应 用 层 的 远程 登 
录 协 议 规范 (RFC 854) 。 事 实 上 ，6000 份 RFC 中 只 有 大 约 30% 经 常用 在 互联 网 |.， 这 就 提出 了 一 个 
问题 : 为 什么 会 有 那么 多 的 RFC? 这 里 有 几 个 原因 。 第 一 ,一 旦 产生 一 个 RFC, 没有 人 可 以 修改 它 。 
因此 ， 许 多 RFC 是 过 时 的 或 者 被 新 的 RFC 所 更 新 。 第 二 ， 一 个 单一 的 协议 可 能 由 多 个 RFC 的 定义 。 
具有 丰富 功能 的 单一 协议 ， 不 可 能 在 其 第 1 版 就 完成 ， 因 此 当 需 求 出 现时 就 要 单独 添加 新 的 功能 或 选 
项 。 第 三 ， 无数 定 义 新 兴 技 术 的 RFC 可 能 没有 部 署 ， 因 为 各 种 困难 或 更 新 的 蔡 代 品 的 出 现 。 


表 A-2 1561 份 RFC 定义 的 未 知 协议 


















































层 协议 数量 层 协议 数量 

ATM 46 TCP 111 
数据 链 路 层 传输 层 

PPP 87 UCP 21 

ARP/RARP 24 DNS 105 
BOOTP/DHCP 69 FTP/TFTP 51 
ICMPZICMPv6 16 HTTP/HTML 37 
网 络 层 IP/IPv6 259 应 用 层 | MIME 99 
Multicast 95 SMTP 41 

RIP/BGP/OSPF | 154 SNMP/MIB 238 

TELNET 108 




















以 远程 登录 TELNET 协议 作为 例子 。 大 约 有 108 个 RFC 描述 这 个 协议 。 在 108 个 RFC 中 ，60 定义 
远程 登录 TELNET 的 选项 ， 只 有 8 个 RFC 描述 主 协议 ， 剩 下 的 文档 是 协议 相关 的 讨论 、 评 价 、 加 密 方 
法 或 体验 。 这 些 选项 定义 为 Telnet 协议 出 现 的 新 需求 ,它们 使 协议 的 功能 更 加 完善 。 在 8 个 RFC 中 ， 
RFC 854 是 定义 TELNET 的 最 新 协议 ， 而 其 他 7 个 已 经 过 时 或 已 被 更 新 


A.2 开源 社区 

正如 前 面 提 到 的 ， 对 于 每 个 标准 RFC， 实 施 是 必要 的 并 且 应 该 对 公众 开放 以 证 明 其 可 用 性 。 这 样 
的 指导 方针 推动 了 开源 的 发 展 。 事 实 上 ， 许 多 开源 社区 都 致力 于 实施 这 些 新 的 互联 网 标准 。 在 介绍 这 
些 社区 之 前 ， 我 们 打算 先 回 答 以 下 问题 : 整个 开源 运动 是 如 何以 及 为 何 发 起 的 呢 ? 发 放 、 使 用 、 修 改 
和 分 发 一 个 开源 软件 包 的 运动 规则 是 什么 ”到 目前 为 止 ， 在 应 用 程序 、 内 核 以 及 ASIC 设计 中 已 经 产生 
了 什么 样 的 运行 代码 ? 本 综述 将 引领 读者 进入 开源 运动 - 
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A. 2.1 开始 和 开源 规则 


免费 软件 基金 会 

1984 年 Richard Stallman (RMS，www. stallman. org) 成 立 了 免费 软件 基金 ( www. fsf org ) ， 它 是 为 
CNU 项 目 (www. gnu. org) 筹集 资金 的 免税 慈善 工作 。CNU ， 是 “GNU 's Not Unix” 的 递归 缩写 ， 是 
“new” 的 同音 字 ， 旨 在 开发 与 UNIX 兼容 的 软件 并 推动 软件 免费 。 建议 著 佐 权 (copyleft) 和 通用 公共 
许可 证 (CPL) 以 保证 这 种 免费 。 在 本 质 上 ， 著 佐 权 是 具有 GPL 规定 的 著作 权 。RMS 本 身 不 仅 是 “ 传 
教士 ” ， 而 且 还 是 最 主要 的 开源 软件 的 贡献 者 。 他 是 CNU C 语言 编译 器 (CCC) 、GNU 符号 调试 器 
(GDB) 和 GNU Emacs 等 的 主要 作者 .所 有 这 些 软件 包 是 GNUZLinux 中 的 基本 工具 ， 在 Fedora 8.0 的 
发 布 中 约 有 55 个 CNU 软件 包 ， 总 共有 1491 个 软件 包 。 

许可 证 模式 

如 何 处 理 开源 软件 包 的 知识 产权 是 一 个 有 趣 的 ， 有 时 也 是 富有 争议 的 问题 . 选择 一 种 合适 的 许可 
模式 向 公众 发 布 开源 包 很 重要 ， 一 般 来 讲 ， 许 可 证 模式 有 三 种 性 质 需 要 注意 : 1) 它 是 免费 软件 吗 ? 
2) 它 有 闭 估 权 吗 ? 3) 它 与 GPL 兼容 吗 ? 免费 软件 意味 着 程序 可 以 自由 修改 和 重新 发 布 。 著 佐 权 通常 
意味 着 放弃 知识 产权 和 私人 许可 证 。 GPL 兼容 软件 包 是 指 链接 CPL 软件 是 合法 的 。 不 过 ， 有 太 多 的 许 
可 证 模型 。 我 们 只 描述 了 三 个 主要 的 : GPL、LGCPL 和 BSD。 

通用 公共 许可 证 (GPL) 是 一 个 免费 的 软件 许可 证 和 著 佐 权 许 可 证 。 它 有 具有 自我 延续 和 传播 性 ， 
严格 确保 后 续 了 相生 作 品 将 在 相同 的 许可 模式 ， 即 GPL 下 发 布 。Linux 内 核 本 身 是 CPL, 除了 后 续 衍 生 作 
品 外 ， 与 Linux 静态 链接 的 程序 也 应 该 是 CPL。 然而， 动态 链接 到 Linux 的 程序 不 一 定 是 GPL。 更 宽松 
的 GPL (LGPL) 一 旦 被 认定 是 库 CPL， 就 允许 与 非 免费 的 〈 专 有 的 ) 模块 链接 。 例 如 ， 因 为 有 很 多 其 
他 的 C 库 ， 所 以 如 果 GNU C 库 也 需要 遵守 CPL， 那 么 可 以 让 专 有 软件 的 开发 人 员 使 用 其 他 的 替代 库 
因此 ， 在 某 些 情况 下 LCPL 有 助 于 免费 软件 以 吸引 更 多 的 用 户 和 程序 员 。CNU C 库 就 是 这 种 LGPIL， 另 
一 个 极端 ， 伯 克利 软件 分 发 (BSD) 声明 代码 可 以 免费 分 发 ， 并 允许 衍生 作品 冠 以 不 同 的 术语 ， 只 要 
获得 必要 的 许可 。Apache 与 BSD 相关 的 操作 系统 ， 以 及 免费 版 本 的 Sendmail 等 都 采用 BSD 许可 证 。 总 
之 ，GCPL 意味 着 它 是 公共 财产 ， 你 不 能 私人 拥有 ， 而 BSD 意味 着 任何 人 都 可 以 带 走 它 。 所 有 其 他 授权 
模式 都 介 于 这 两 个 极端 之 间 


A. 2.2 开源 资源 

Linux 

人 们 很 少 强调 Linux 操作 系统 是 CNUZLinux 的 。 事 实 上 ，Linux 内 核 是 魔术 师 而 CNU 软件 包 执行 
所 有 的 招数 。1991 年 ， 当 时 还 是 芬兰 赫尔辛基 大 学 研究生 的 Linus Torvalds， 编 写 了 一 个 真正 UNIX 
兼容 的 操作 系统 ， 并 将 它 张 贴 在 新 闻 组 comp. os. minix 上 。1994 年 以 后 ， 他 把 内 核 维 护 交 给 ALLan 
Cox， 同 时 他 仍然 监控 内 核 版 本 并 决定 内 容 的 添加 和 删除 ， 而 让 其 他 人 处 理 用 户 空 间 问 题 ( 库 、 编 
译 器 ， 以 及 各 种 进入 Linux 发 行 版 的 工具 和 应 用 ) 。CNUZLinux 已 被 证 明 是 一 种 成 功 的 组 合 。1998 年 
另 一 个 “传道 十 ”Eric Raymond (www. tuxedo. org/ ~ esr) 将 这 种 软件 开发 中 的 变革 形容 为 “开源 
运动 ”。 

软件 包 分 类 

开源 软件 包 的 数量 已 超过 1 万 个 。 这 个 巨大 的 库 可 分 为 三 大 类 : 1) 带 有 控制 台 或 GUI 接口 的 操作 
环境 ; 2) 提供 各 种 服务 的 后 台 守 护 程 序 ; 3) 程序 员 的 编程 工具 包 和 库 。 我们 深入 挖 握 这 个 巨大 的 
库 ， 总 结 统计 数据 显示 在 图 A-3 中 。 例 如 ,共有 97 种 HTTP 守护 程序 ，Apache 只 是 其 中 之 一 ， 恰 好 又 
是 最 流行 的 一 种 。 

Linux 发 行 版 

如 果 内 核 是 构建 的 基础 ， 那 么 每 一 个 开源 软件 包 就 是 它 上 面 的 一 块 传 ， 厂 商 的 Linux 发 行 版 就 是 
一 个 带 有 基础 、 各 种 砖 和 装饰 家 具 的 建筑 物 外 观 。 这 些 厂商 测试 、 整 合并 将 开源 软件 集成 到 一 起 。 接 
下 来 ， 我 们 介绍 几 个 知名 的 Linux 发 行 版 
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023] CAE [026] Fonts and Unilities 1053] Printing 
[0341CD Writing Software [593] Games [189] Scientific Applications 
1906] Communication 1277| Graphies 1007] Screensavers 
030] Compression [19008] Home Automation 1031] Shells 
[0091 Core [103] IRC [265] Sound 
130] Database [053] Java [136] System 
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后 台 守 护 程序 





[007] Anti-Virus [OSOLIRC [010] Bug Tracking [100] Perl Modules 
[005] Batch Processing [D1S] Mailinglist [068] Compilers [008] PHP Classes 
[030] BBS Managers 1014] CORBA I001] Pike Modules 
[010] Chat 231] Mise [073] Database [057] Python Modules 
[032] Database [027] MUD [038] Debugging [031] Revision Control 


[026] DNS 009] Network [084] Environments 
19015] Filesharing Directory Service 1028] Game SDK 


[019] Tel Extensions 
1017] Test Suites 


1009] Finger 


[O22 ETP 023] POP3 [1731 Java Packages 1178] Web 
[0006] Hardware O71] Proxy [028] Kernel [0SS] Widget Sets 
031] SNTP [001] Kernel Patches 
[013] ldent [I005] SNMP [121] Languages 
10131 IMAP [0021 Time [485| Libraries 
| 
图 A-3 ”开源 软件 包 分 类 
Slackware (www. slackware. com) 是 一 个 有 着 悠久 历史 的 发 行 版 ， 广 为 发 布 ， 而 且 大 多 是 非 商 业 性 


的 。 它 稳定 、 





易于 使 用 








O13] NNTP 








1048] Interfaces 








[558] Tools 





现 Debian 发 行 版 的 灵活 性 和 满 查 度 


\ 司 发 布 ， 开始 使 用 红帽子 包装 管理 带 (RPM) 为 Linux 发 行 版 打包 ， 
RPM 使 软件 依赖 性 透明 ， 不 那么 


安装 


、 钝 载 、 升 级 。 


产品 ， 红 帽 企 业 版 Linux ( RHEL ) ， 


Red Hat Linux 
变 而 来 


业 产 品 和 社区 支持 的 发 行 版 
tp: AAwww. mandriva com/) 的 前 身 是 Mandrake Linux， 
机 许多 其 他 独特 的 功能 


目前 ， 在 红帽子 公 
CentOS (社区 企业 操作 系统 ， 
费 的 企业 级 计算 平台 ,保持 与 RHEL 
SuSE Linux (www. novell. com/linux/) 和 openSUSE (www. opensuse. org) 分 别 是 由 Novell 公 
的 软件 包 资 源 而 闻名 。 Mandriva Linux (ht- 
开始 只 是 结合 红 帽 发 行 版 与 KDE (K 桌面 环境 ) 
欢迎 ， 以 至 于 因此 成 立 了 


丰富 的 开具 


SuSE 因 其 良好 的 文档 和 丰富 


这 种 组 合 结果 证 明 是 如 此 受 


www. centos. org) 是 另 一 


Debian (www. debian. org) 形成 并 re 者 维护 : 
红帽子 Linux (www. redhat. com) 由 标准 普尔 500 公司 之 一 的 红 帆 
提供 比 原始 “. tar. gz.” 

] 将 红 帽 Linux 作为 自己 的 商业 
了 维护 红帽子 
是 从 一 个 由 社团 支持 的 发 行 版 名 为 Fedora 演 
个 社团 支持 的 发 行 版 。 它 提供 了 一 
的 100% 二 进 制 兼容 性 。 像 RHEL 和 Fedora 之 间 的 关系 一 样 ， 
司 赞助 的 企 


麻烦 。 红 帽 公司 
直到 2004 年 以 后 ， 可 能 由 于 版 权 和 专 
司 赞助 支持 下 ，RHEL 


: 利 问 题 停止 





许多 高 级 用 户 已 经 发 


Mandriva 公 
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司 。Ubuntu (http: [www. ubuntu. com) 取 名 源 日 Bantu 的 话 “ 人 道 地 对 待 他 人 ”， 它 是 一 种 基于 Debi- 
an 并 使 用 CNOME (CNU 网 络 对 象 模型 环境 ) 作为 多 用 途 图 形 桌 面 环境 的 发 行 版 。 因 其 易于 安装 和 用 
户 友好 的 界面 而 闻名 。 自 2006 年 以 来 ， 据 报道 Ubuntu 成 为 最 流行 的 发 行 版 。 


A. 2.3 开源 网 站 

Freshmeat. net 和 SourceForge. net 

Web 站 点 Freshmeat. net 的 建立 为 Linux 用 户 提 供 了 一 个 平台 以 便 找到 并 下 载 开源 许可 证 下 发 布 的 
软件 包 。 对 于 每 个 软件 包 ， 除 了 简要 说 明 外 ， 还 包括 主页 URL、 发 布 焦点 、 最 近 更 改 和 依赖 的 库 ， 在 
Freshmeat. net 中 给 出 3 个 有 趣 的 指标 ， 分 别 是 评级 、 活 力 和 受 欢迎 度 。 用 户 投票 表决 机 制 提供 了 评级 ， 
而 其 他 两 个 指标 的 计算 根据 项 目 时 间 、 公 告 数量 、 上 次 公告 日 期 、 订 疝 数量 、URL 网 址 点 击 量 和 记录 
次 数 。 除 了 软件 包 外 ，Freshmeat net 包括 许多 原创 的 文章 介绍 软件 和 编程 

Freshmeat. net 是 由 Geeknet 公司 支持 和 维护 的 。 根据 Web 网 站 于 所 得 色 的 统计 数字 ，Freshmeat net 
已 经 引进 了 4 万 多 个 项 目 。 统计 还 报告 了 前 10 个 项 目 ， 按 照 受 欢迎 度 和 活力 排序 。 例 如 ， 排 在 前 10 
位 中 的 两 个 著名 项 目 是 GCC 和 MySQL，GCC 是 前 面 提 到 的 众所周知 的 GNU 编 闪 上 太 ，MySQL 是 互联 网 
上 最 流行 的 开源 数据 库 之 一 。 

与 Freshmeat. net 提供 信息 为 用 户 查 找 、 比 较 、 下 载 软 件 包 不 同 ，SourceForge. net 为 软件 包 开 发 者 
管理 项 目 、 发 布 、 通 信和 编码 提供 免费 的 平台 。 它 承载 了 23 万 个 项 目 ! 在 SourceForge. net 上 最 活跃 的 
项 目 是 Notepad ++ ， 而 下 载 次 数 最 多 的 是 eMule。 前 者 是 在 Windows 中 使 用 的 文本 编辑 器 ， 而 后 者 则 是 
一 个 P2P 文 件 共享 程序 。 

OpenCores. org 

不 仅 软 件 包 可 以 是 开源 的 ， 便 件 设计 也 可 以 是 开源 的 。Open Cores. org 社区 收集 对 人 硬件 开发 感 兴趣 并 
像 开 源 软 件 一 样 喜 欢 与 他 人 分 享 其 设计 的 人 。 唯 一 的 区 别 在 于 代码 是 用 Verilog 和 VHDL 硬件 描述 语言 
写 的 。 社团 及 其 门户 网 站 由 Damjan Lampret 于 1999 年 成 立 。 堆 至 2009 年 12 月 ， 在 其 网 站 收集 了 701 项 
目 ， 收 到 50 万 次 点 击 / 月 。 这 些 项 目 分 成 15 个 类 ， 如 算术 内 核 、 通 信 内 核 、 加 密 内 核 和 DSP 内 核 。 

与 Freshmeat. net 一 样 ，OpenCores. org 也 为 每 个 项 目 维护 了 一 些 有 趣 的 指标 ， 如 受 欢 迎 度 、 下 载 、 
活动 和 评级 。 例 如 ， 受 欢迎 度 前 6 名 的 为 OpenRISC 1000 、 以 太 网 10X100Mbps 、ZPU、I2C 内 核 、VGA/ 
LCD 控制 占 和 Plasma. 


A. 2.4 重大 事件 和 人 物 
表 A-3 列 出 了 开源 运动 中 的 重大 事件 。 许 多 捐助 者 花费 时 间 开 发 开源 软件 。 这 里 ， 我 们 虽然 只 提 
及 一 些 知名 的 人 ， 但 同时 也 应 该 感谢 那些 受 公 众 关 注 较 少 的 人 员 


表 A-3 开源 时 间 线 






































1969 因特网 以 APPAnet 形式 出 现 。UNIX 

1979 伯克利 软件 套件 ( BSD) 

1983 Allman 发 布 了 Sendmail 

1984 Richard stallman 发 起 了 GNU 项 日 

1986 伯克利 因特网 域名 (BIND) 

1987 Elaine Ashton 发 布 了 Perl 

1991 Linus Thorvald 编写 了 Linux 

1994 Allan Cox 继续 Linux 内 核 维 护 ，PHP 则 由 Rasmus Lerdorf 维护 
2/1995 Apache HTTP 服务 器 项 目 具 有 8 个 团队 成 员 
371998 浏览 器 开 源 
8/1998 “我 们 肯定 会 担心 了 -” 微软 总 裁 steve Ballmer 
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( 续 ) 
3/1999 在 APS 许可 证 下 发 布 了 Darwin ( MacOSX 的 内 核 ) 
7/2000 Apache Web 服务 器 数量 超过 了 1100 万 (占据 全 部 市 场 的 62. 8% ) 
10/2000 。 |。 提供 StarOffiee 代码 
10/2003 ”| 英国 政府 宣布 一 项 建立 在 开源 软件 之 上 的 交易 
1072004 | 为 开源 开发 者 提供 500 项 专利 
1/2005 | 公开 了 Solaris 操作 系统 
5/2007 | 微软 声称 Linux 侵犯 了 其 专利 
11/2007 谷歌 宣布 一 项 称 为 Android 的 开源 移动 设备 平台 
oe 微软 首席 执行 官 语 认 40% 的 Web 服务 器 运行 在 Windows [-， 但 是 60% 的 Web 服务 带 运 行 
在 Linux 之 上 
7/2009 谷歌 引入 其 开源 操作 系统 ，Google Chrome OS 





A. 3 研究 与 其 他 标准 社区 

除了 TETF 和 开源 社区 外 ,还 有 几 个 重要 的 研究 机 构 和 标准 团体 也 对 互联 网 的 演变 做 出 了 很 多 贡 
献 。 这 里 我 们 介绍 他 们 的 情况 。 

ISI: 美国 南 加 州 大 学 信息 科学 研究 所 

ISI 是 一 个 针对 先进 计算 机 和 通信 技术 的 研究 和 开发 中 心 ， 成立 于 1972 年 .JSI 现在 有 8 个 部 门 ， 
可 以 容纳 超过 300 名 研究 人 员 和 工程 师 。 其 计算 机 网 络 分 部 是 互联 网 的 前 身 ARPANET 的 发 祥 地 之 一 
该 分 部 也 参与 了 许多 日 常 使 用 的 互联 网 协议 和 软件 包 (如 TCPAIP、DNS、SMTP 和 Kerberos) 的 开发 。 

ICSI: 伯克利 国际 计算 机 科学 研究 所 

1CSI 是 一 个 独立 的 非 营利 的 从 事 计算 机 科学 研究 的 机 构 ， 成 立 于 1988 年 ,包括 4 个 主要 的 研究 小 
组 : 互联 网 研究 、 理 论 计 算 机 科学 、 人 工 智能 和 自然 语言 处 理 ， 互 联网 研究 小 组 的 科学 家 曾 参 与 了 许 
多 知名 的 和 广泛 部 署 的 网 络 算法 和 工具 的 研究 ， 如 RED 、TCP SACK 、TFRC 和 网 络 模拟 器 NS2 .该 小 
组 还 对 目前 的 互联 网 流量 和 安全 状态 提出 了 一 系列 的 测量 和 意见 ， 这 对 新 网 络 协 议和 算法 的 设计 和 测 
试 是 非常 有 用 的 。 

CERT: 卡 内 基 梅 隆 大 学 计算 机 应 急 响应 小 组 

正当 Morris ( 莫 里 斯 ) 蠕虫 在 1988 年 造成 10% 的 互联 网 系统 停止 时 ，CERT 协调 中 心 刚好 在 软件 
工程 研究 所 成 立 了 。 该 中 心 的 主要 工作 包括 软件 保证 、 安 全 系统 、 组 织 安全 、 协 调 响应 、 教 育 / 培 训 。 
CERT 也 是 万 维 网 的 诞生 地 。 

ETSI: 欧洲 电信 标准 研究 所 

ETSI 创建 于 1988 年 ， 是 一 个 欧洲 电信 产业 标准 化 组 织 。 其 制定 的 标准 包括 固定 、 移 动 、 无 线 电 和 
互联 网 技术 。ETSI 推出 的 最 成 功 的 标准 是 GSM ( 全球 移 动 通信 系统 ) 

IEEE: 电气 和 电子 工程 师 协 会 

IEEE 是 电气 工程 、 计 算 机 科学 和 电子 产品 最 大 的 专业 协会 ,拥有 分 布 在 150 多 个 国家 的 超过 
365 000 名 会 员 (截至 2008 年 )。 该 协会 出 版 大 约 130 种 期 刊 或 杂志 ， 每 年 举办 400 场 会 议 ， 并 出 版 
了 许多 教科 书 。 它 也 是 通信 和 领域 国际 标准 的 重要 开发 者 。 许 多 PHY 和 MAC 协议 就 是 在 IEEE 802 标 
准 系列 中 规定 的 ， 包 括 802.3 (以 太 网 ) 、802. 11 (无 线 局 域 网 ) 和 802. 16 (WiMAX)。 这 些 标准 的 
内 容 在 第 3 章 中 介绍 。 

ISO: 国际 标准 化 组 织 

ISO， 作 为 世界 上 国际 标准 化 组 织 最 大 的 开发 者 和 发 布 者 ， 参 与 几乎 所 有 领域 一 一 技术 、 商 业 、 政 
府 和 社会 。 许 多 车 名 的 电信 系统 都 是 通过 国际 标准 化 组 织 进行 标准 化 的 。 例 如 ， 电 话 网 络 就 是 基于 其 
公共 电话 交换 网 (PSTN) 标准 。ISO 也 制定 了 许多 数据 网 络 标准 ， 尽 管 并 非 所 有 这 些 标准 在 当前 的 互 
联网 中 使 用 ， 如 OSI 的 7 层 网 络 体系 结构 
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最 后 我们 感谢 某 些 个 人 ， 因 为 通过 他 们 的 努力 建立 了 互联 网 的 基本 体系 结构 。J. C. R. Licklider 
和 和 Lawrence Roberts 在 20 世纪 60 年 代 领 导 的 ARPA 项 目 创建 了 ARPANET, Paul Baran、Donald Davies 
和 和 Leonard Kleinrock 时 在 1969 年 因 构 建 了 初始 的 分 组 交换 式 ARPANET 网 常常 被 赞誉 为 “互联 网 之 
全 ”Bob Kahn 和 Vint Cerf 在 20 世纪 70 年 代 初 开发 了 TCP 和 IP.。 Robert M. Metcalfe 和 David R. Boggs 
于 1973 年 共同 发 明了 第 一 个 以 太 网 技术 ，jJon Postel 随后 为 TCPAIP、DNS、SMTP、FTP 等 编写 了 很 多 
RFC David D; Clark 在 20 世纪 80 年 代 的 互联 网 体系 结构 开发 中 担任 首席 协议 体系 结构 师 。Van Jacob- 
son 在 20 世纪 80 年 代 末 对 TCP 拥塞 控制 做 出 了 贡献 。Sally Floyd 在 20 世纪 90 年 代 开 发 了 RED 和 CBQ 
并 改进 了 TCP。，Tim Bemers-Lee 于 1989 年 发 明了 万 维 网 ， 并 导致 20 世纪 90 年 代 互 联网 的 爆炸 性 增长 。 


A.4 历史 

本 节 将 介绍 互联 网 ah A-4 显示 了 这 些 技术 的 时 间 轴 。 空 
忆 条 意味 着 该 技术 癸 究 了 多 年 . 但 没有 得 到 部 署 或 为 市 场所 接受 ， 而 实心 条 意味 着 它 已 经 部 署 ， 但 被 
后 来 的 技术 所 符 代 或 者 没有 兹 取代 现 有 的 技术 。 简要 的 历史 如 所 述 






































X-25，20 世 纪 80 年 代 帧 中 继 ，20 世 纪 90 年 代 (DsL 之 上 的 IP 所 特 人 | 
令 牌 环 /总 线 ，20 世 纪 80 年 代 FDDI 和 DQDB，20 世 纪 90 年 代 (未 能 替代 以 太 网 ) 
ISDN，B-ISDN，20 世 纪 80 年 代 ATM，20 世 纪 90 年 代 (未 能 替代 TCP/IP 和 以 太 网 ) 
OSI，1979-1985 (未 能 替代 TCP/IP) | 
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图 A-4” 某 些 短命 及 失败 技术 的 时 间 线 





体系 结构 标准 : OSI 
1980 年 Zimmerman 提出 了 7 层 的 并 放 系 统 互 联 (0ST) 体系 结构 ， 后 来 在 1994 年 被 国际 标准 化 组 
组 (RSO) 采纳 它 虽 在 取代 1981 年 定义 的 新 兴 的 4 层 TCPZP 协议 栈 。 它 有 两 个 额外 的 层 ， 表 示 层 和 
会 话 层 ， 认 为 它 比 TCPZP 结构 更 完整 和 更 有 具 结 构 化 .但 为 什么 0SI 却 失败 了 呢 ? 主要 有 两 个 原因 。 第 
，TCPZIP 协议 已 经 普遍 存在 于 大 多 数 计算 机 上 运行 的 UNTX 拷 SP 也 就 是 说 ， 它 有 一 个 强大 
aa a 第 二 ， 所 声称 的 结构 化 完整 性 并 不 重 昌 ， 只 要 所 有 种 类 的 应 用 能 够 在 TCPYIP 
上 顺畅 地 运行 。 结 果 证 明 ， 在 互联 网 上 没有 绝对 的 权威 ， 即使 是 由 国际 标准 组 织 批准 和 支持 的 技术 也 
可 能 会 失败 。 而 且 OSI 只 是 许多 失败 例子 之 一 
综合 服务 : ISDN、B-ISDN 与 ATM 
在 同一 个 网 络 上 承载 语音 和 数据 是 电信 行业 的 一 项 长 期 努力 。 最 早 可 以 追溯 到 20 世纪 80 年 代 中 
期 ， 当 时 该 行业 只 有 POTS 用 于 语音 服务 ， 调 推出 面向 连接 的 X. 25 大 多 为 金融 应 用 和 企业 网 络 连 接 提 
供 有 限 的 数据 服务 。X.25 是 一 项 成 功 的 服务 ， 在 20 世纪 90 年 代 远 渐 被 帧 中 继 所 取代 ， 然 后 在 21 世纪 
00 年 代 通 过 数学 用 户 线 (DSL) 的 IP 作为 数据 服务 向 互联 网 演变 。 但 数据 服务 仍然 与 语音 服务 分 开 ， 
下 到 在 20 世纪 80 年 代 示 综合 业务 数字 网 ( ISDN) 作为 第 一 次 将 这 两 个 公共 服务 结合 的 尝试 为 止 。 
ISDN 综 合用 户 接 品 访 问 数据 和 语音 服务 ， 但 仍然 有 遇 个 单独 的 骨干 网 络 ， 一 个 电路 交换 承载 声音 ， 另 
一 个 分 组 交换 (但 是 面向 连接 的 ) 承载 数据 。ISDN 是 温和 但 短暂 的 ， 在 20 世纪 80 年 代 末 到 20 世纪 
90 年 代 中 期 许多 国家 的 服务 提供 商 取 得 了 成 功 。 
为 了 消除 ISDN 在 固定 用 户 接口 、 罕 常 宽 和 单独 骨 十 网 的 限制 ， 在 20 世纪 90 年 代 初 期 向 ITU 提出 
了 宽带 ESDN (B-ISDN) 以 提供 灵活 的 接口 、 宽 带 服务 和 统一 的 骨干 网 文 依赖 于 信 元 交换 异步 传输 
模式 (ATM) 技术 ，ATM 中 的 一 个 育 元 是 一 个 固定 大 小 、53 字 节 的 分 组 ， 以 方便 通过 硬件 交换 。 与 
OSI 的 命运 相似 ，ATM 是 一 种 完整 的 、 复 杂 的 技术 ,但 它 需 要 与 已 经 在 公共 数据 网 络 中 占 主导 地 位 的 
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TCPZIP 协议 共存 ， 这 种 共存 是 很 痛苦 的 ， 因 为 面向 连接 的 信 元 交换 ATM 和 无 连接 的 分 组 交换 上 的 冲 
RD pe LD 六 丽人 + 推 乔 〈( 岂 通过 ATM ) ， 经 过 
投资 数 十 亿美 元 和 “大 量 ”研究 后 ，20 世纪 90 年 代 末 最 终 放弃 了 这 种 努力 。B-ISDN 从 术 实 现 商 业 部 
丑 。TCPZIP 协议 赢得 了 第 二 次 主 娄 战争 并 继续 从 数据 向 语音 及 视频 扩大 其 服务 

广域网 服务 : X. 25 和 帧 中 继 

如 果 TCPZPP 是 数据 通信 阵营 提出 的 数据 服务 解决 方案 ， 那 么 X. 25 就 是 电信 阵营 提出 的 第 一 个 数据 
服务 解决 方案 。X. 25 有 3 层 协议 并 且 是 面向 连接 的 ,但 由 于 高 的 苏 以 处 理 并 销 而 使 它 的 速度 很 慢 ， 因 
此 ， 它 被 重新 设计 压缩 到 两 层 协议 栈 的 帧 中 继 ， 当 然 仍然 是 面 同 连接 的 。 过 渡 到 帧 中 继 是 渐进 的 儿 乎 不 
被 人 注意 到 。 如 今 ， 仍 有 使 用 X. 25 或 帧 中 继 的 金融 系统 ， 但 大 多 数 企 业 客户 已 经 切换 到 DSL 的 IP 了 

一 个 有 趣 的 现象 是 ， 从 电信 阵营 中 推出 的 几乎 所 有 数据 服务 者 是 面向 连接 的 ， 并 最 后 以 失败 或 者 
被 蔡 换 而 告终 ,同样 的 事情 可 能 发 生 在 无 线 数 据 服务 ， 包 括 GSMAGPRS 和 3G 电路 交换 语音 服务 和 分 
组 交换 ， 都 是 面向 连接 的 数据 服务 。 另 一 方面 ， 山 通信 阵营 推出 的 WiMAX 和 一 些 电信 参与 者 不 明确 
区 分 数据 和 语音 ,将 自身 定位 为 一 个 纯粹 的 第 2 层 技术 来 承载 下 及 以 上 上 数据。 如果 历史 会 重演 ， 那 么 
最 终 的 结果 也 应 该 是 不 言 而 喻 的 

局 域 网 技术 : 令 牌 环 、 令 牌 总 线 、FDDI、DQDB 和 ATM 

类 似 于 IP， 自 20 世纪 80 年 代 初 以 来 以 太 网 已 经 成 为 长 其 的 筷 家 。 它 之 所 以 会 辜 主 要 是 因为 它 仍 
然 保 持 简 单 ， 并 经 过 了 许多 代 的 演变 。20 世纪 80 年 代 它 的 第 一 个 竞争 对 手 是 令 牌 坏 和 令 牌 总 线 ， 
于 循环 令 牌 传递 的 性 质 ， 所 以 连接 到 环 或 总 线 [的 站 点 具有 有 限 et han 但 这 种 优势 并 没有 为 
它们 赢得 市 场 份额 ， 因 为 接口 卡 和 集中 天 中 硬件 的 复杂 性 较 高 。 理论 上 无 限 的 延迟 并 没有 损害 以 太 网 ， 
因为 实际 中 的 延迟 是 可 以 接受 的 。 第 二 个 竞争 对 手 是 20 世纪 90 年 代 初 的 光纤 分 布 式 双 接 门 (FDDT) 
和 双 队 列 双 总 线 (DQDB)， 它 们 运行 在 100Mbps， 与 当时 10 Mbps 以 到 网 相 比 ， 能 够 提供 服务 质量 即 
具有 有 限 的 延 信 。 类 似 于 令 牌 环 网 ，FDDI 增强 了 令 牌 传递 协议 ， 而 DQDB 运行 一 种 复杂 的 机 制 一 一 
“在 上 行 微 时 隙 中 请 求 下 行 数据 时 阶 ”。 作为 回应 ， 以 太 网 演变 成 107100 Mbps 的 版 本 并 再 次 以 其 硬件 
的 简洁 性 赢得 了 市 场 垄 断 。 

在 20 世纪 90 年 代 中 期 的 第 三 个 竞争 对 手 是 ATM， 它 是 源 自 B-ISDN 所 大 努力 的 一 个 分 支 。 在 20 世 
纪 90 年 代 ，ATM 旨 在 跨越 不 仅 最 后 一 公里 的 接口 ， 而 且 还 包括 广域网 ( 骨 十 网 ) 和 局 域 网 。ATM 局 域 
网 提供 了 一 个 令 人 印象 深刻 的 吉 位 / 秒 的 容量 ， 以 及 从 局 域 网 到 广域网 的 全 面 综合 。 它 的 失败 是 因为 
B-ISDN 保 护 金 被 放弃 了 并 且 以 太 网 演变 为 了 107100A1000 Mbps 版 本 。 第 3 章 全 面 介绍 了 以 太 网 的 演变 ， 


进一步 阅读 


IETF 


几乎 所 有 IETF 相关 的 文档 都 是 在 线 可 访问 的 。 没 有 特定 的 书籍 是 单 狐 介 绍 IETF 或 RFC 的 。 因 此 
建议 读者 参考 IETF 在 www. ietf. org 的 官方 网 站 


开源 的 发 展 


第 一 项 是 第 一 个 开源 项 目 。 接 下 来 的 两 个 是 有 关 开 源 的 著名 文 草 以 及 由 之 而 来 的 书籍 .第 四 个 是 
有 关 开 源 发 展 的 概述 
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® Revolutionary, O” Reilly & Associates , Jan. 2001. 

® M.W.Wuand Y.D. Lin， “Open Source Software Development: An Overview,” JEEE Computer, 
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在 教授 协议 设计 的 同时 交错 地 介绍 Linux 开源 实现 会 出 现 一 个 问题 。 学 生 可 能 不 熟悉 Linux 用 户 、 
管理 员 和 开发 人 员 的 环境 ， 他 们 也 没有 是 够 的 经 验 跟踪 复杂 的 源 代 码 。 关 于 Linux 下 用 户 和 管理 员 的 
环境 ， 有 大 量 且 易于 阅读 的 参考 资料 提供 。 对 于 开发 者 来 说 ， 有 几 个 很 好 的 参考 资料 ， 但 它们 对 学 习 
计算 机 网 络 课程 的 学 生来 说 太 厚 了 而 不 能 快速 阅读 学 习 。 学 习 跟 踪 复 杂 的 源 代码 是 男 一 个 需要 克服 的 
障碍 。 因 此 ， 本 附录 提供 了 源 代 码 ， 而 Linux 的 开发 工具 和 实用 工具 将 分 别 在 附录 C 和 附录 D 中 介绍 。 

本 附录 为 跟踪 Linux 内 核 提 供 了 一 个 简单 的 指南 。 同 样 的 做 法 可 用 于 跟踪 Linux 的 应 用 程序 。 我 们 
首先 回顾 了 Linux 源 代码 树 的 重点 是 网 络 和 互联 ， 这 是 本 附录 的 重点 ， 其 次 介绍 几 个 有 用 的 跟踪 Linux 源 
代码 的 工具 。B. 1 节 中 国 顾 内 核 源 代码 树 ， 在 默认 名 为 /usYsre/Linux 的 目录 下 ,将 20 个 目录 分 成 7 
类 ， 描 述 这 些 类 包括 的 内 容 ， 并 列 出 它们 重要 的 例子 模块 

B. 2 节 在 表 中 总 结 了 第 3 草 、 第 4 章 和 第 5 章 中 介绍 过 的 开源 实现 。 这 将 指导 读者 将 重点 放 在 网 络 
下 联 上 上 并 缩小 跟 蹊 的 程序 函数 。 震 要 注意 的 是 ， 第 6 章 中 的 开源 实现 是 在 Linux 的 用 户 空间 而 非 Linux 
内 核 中 。 总 结 表 不 包括 第 7 草 和 第 8 草 讨论 的 高 级 QoS 和 安全 性 的 开源 实现 功能 ， 虽 然 其 中 一 些 也 是 
在 Linux 内 核 中 实现 的 

为 了 跟 踊 复杂 的 源 代码 ， 有 效 的 工具 是 必 不 可 少 的 。B.3 节 介 绍 了 儿 种 流行 的 追踪 工具 并 亲身 经 
历 一 个 样本 例子 的 开源 实现 ， 第 4 曹 中 介绍 的 全 重组， 利用 工具 LXR (Linux 的 交叉 引用 )。 读 者 可 以 
采用 相同 的 做 法 ， 打 开本 书 中 介绍 的 所 有 其 他 的 开源 实现 . 

发 布 和 版 本 

Linux 是 由 Linus Torvalds 在 1991 年 编写 的 ， 当 时 他 还 是 芬兰 赫尔辛基 大 学 的 一 名 研究 生 。 开 发 是 
在 针对 使 用 80386 处 理 器 的 PC 的 Minix 上 完成 的 。 但是， 内 核 本 身 因 没有 系统 软件 ， 如 shell 、 编 详 
凯 、 库 、 文 本 编辑 融和 等 而 不 能 工作 。 因 此 ，Linux 0. 99 是 利用 GNU 通用 公共 许可 证 于 1992 年 12 月 发 
布 的 。Torvalds 后 来 于 1994 年 将 内 核 的 维护 交 给 了 Allan Cox。 

有 许多 Linux 发 行 版 ， 如 红 帆 、SuSE 、Debian 、Fedora ，CentOS 和 Ubuntu。 但是， 具体 安装 哪个 发 
行 版 并 不 重要 ， 因 为 它们 共享 同一 个 Linux 内 核 。 它 们 之 间 的 区 别 在 于 它们 的 附加 组 件 。 可 以 选择 带 
有 图 形 化 安装 程序 的 发 行 版 ， 便 于 服务 右 配 置 工具 、 更 高 安全 性 和 良好 的 在 线 支持 。 

Linux 内 核 也 有 许多 版 本 。 每 个 版 本 都 表示 成 x. y.z， 其 中 x 是 主 版 本 号 ，y 是 次 要 版 本 号 ，z 是 发 
布 号 。 在 2.6.8 版 本 之 后 ， 可 能 增加 了 第 4 个 数字 ， 用 来 表明 一 个 微不足道 的 简单 版 本 号 ， 作 为 惯例 ， 
Linux 内 核 使 用 奇数 的 次 要 版 本 号 码 来 表示 开发 版 本 ， 甚 至 次 要 版 本 号 码 表示 稳定 版 本 。 稚 至 2009 年 6 
月 ， 最 新 版 本 是 v2. 6. 30 


B. 1 内 核 源码 树 
Linux 2. 6. 30 的 源 代码 由 以 下 20 个 一 级 目录 组 成 : Documentation, arch, block, crypto， 
drivers, firmware, fs irncljude, init, pc、 kernel、 TD、 mm: Nnet, samples, 
scripts、security、sound、usr、virt。 每 个 目录 都 包括 用 于 特殊 目的 的 文件 。 例如， 在 Docu- 
ment/ 下 的 文件 用 来 说 明 设 计 概 念 和 Linux 内 核 的 实现 细节 。 由 于 Linux 高 度 演变 的 本 性 ， 目 录 的 名 字 
和 位 置 可 能 会 发 生变 化 ， 例 如 ， 固 件 镜像 文件 自 版 本 2.6.27 后 就 从 arivers/ 目 录 提 取 到 了 firm- 
ware/ 目 录 。 或 者 为 新 的 框架 创建 了 新 的 日 录 ， 例 如， 版 本 2.5.5 建议 的 声音 体系 结构 及 其 一 级 目录 
sound/， 或 者 由 新 功能 驱动 ， 虚 拟 化 平台 的 支持 导致 2.6.25 中 的 virt/ 目 录 。 
从 高 层 看 ， 我 们 仍然 能 将 这 些 目录 分 成 7 类 ， 如 表 B-l 中 所 示 。 这 7 类 为 创建 、 特 定 体系 结构 、 内 
核 核心 、 文 件 系统 、 网 络 、 驱 动 程序 和 帮助 程序 。 本 节 其 余部 分 介绍 每 一 类 以 便 提 供 Linux 内 核 的 概述 。 
。 创建” 在 该 类 中 的 文件 有 助 于 内 核 和 内 核 相关 系统 的 制作 。 两 个 目录 属于 该 类 : scripts/ 和 
us 目录 。scripts/ 目 录 包 含 命令 行 脚本 和 用 于 构建 内 核 的 C 源 代码 。 例 如 ， 当 你 在 内 核 源 代码 的 
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表 B-1 Linux 内 核 源 代码 的 总 结 






































类 别 | 目录 | 描述 
创建 | usr/ nia 天助 制作 内 核 
特定 体系 结构 arch/ virt/ 特定 体系 结构 的 源 代 但 和 头 文件 
内 核 核心 Sr 内 核 中 使 用 的 核心 函数 和 框架 
ipc/ .mm/ .security/ .crypto/ 
文件 系统 Sey 及 这 本 与 系统 相关 文件 的 源 代码 
网 络 Net/ 与 网 络 相关 的 源 代码 
驱动 程序 加 drivers/ ey firmware/ | 设 符 驱动 程序 
帮助 程序 Documentation/ .samples/ 帮助 你 内 核 开发 的 文档 和 示例 代码 





顶级 目录 下 输入 “make menuconfig” 了 时 ， 它 实际 上 执行 在 scripts/kconfig/Makefile 中 
定义 的 步骤 。 然 后 在 usr/ 目 录 下 的 源 代 码 可 以 用 来 构建 一 个 cpio 归档 文件 中 的 初始 化 ramdisk， 
initrda， 这 可 以 在 装载 实际 文件 系统 之 前 由 内 核 在 启动 阶段 挂 载 - 
特定 体系 结构 ”依赖 于 平台 的 代码 放 在 arch/ 日 录 下 。 为 了 减少 移植 工作 ，Linux 内 核 的 设计 将 
底层 的 、 特 定 体系 结构 的 函数 ， 如 内 存 复 制 (memcpy) 与 一 般 例 程 分 开 。 在 早期 版 本 中 ， 特 定 
体系 结构 的 头 文件 ， 即 * .hh 文件 ， 位 于 子 目 录 include/asm- <arch > 下 。 崩 从 2.6.23 发 布 
以 来 ， 逐 步 将 这 些 文件 转移 到 arch/ 目 录 下 。 例如，x86 PC 体系 结构 的 特定 代码 放 在 arch/ 
x86 子 目录 下 。 日 前 所 有 特定 体系 结构 的 头 文件 都 放 在 arch/ 目 录 下 
Linux 还 计划 支持 基于 内 核 的 、 硬 件 辅助 的 虚拟 化 ， 相 关 代 码 位 于 virt/ 目 录 下 目前 ,只 有 一 
个 采用 Intel VT-x 扩展 的 模块 可 用 
内 核 核 心 ” 这 个 类 别 包 含 提 供 内 核 核 心 函数 的 代码 ， 它 包括 内 核 启 动 程序 和 管理 例 程 。 具体 地 
说 ，init/main.c 调用 许多 初始 化 函数 ， 启 动 ramdisk， 执 行 用 户 空间 系统 初始 化 程序 ， 然 后 升 
台 调 度 。 初 始 化 、 调 度 、 同 步 和 进程 管理 函数 的 执行 实际 上 是 在 kernel/ 目 录 下 ， 市 内 存 管理 例 
程 是 在 mm/ 目 录 下 ， 进 程 间 通信 (IPC) 的 函数 (如 共享 内 存 管理 ) 实际 上 是 在 ipc/ 目 录 下 
该 类 别 还 包括 内 核 空 间 共 享 函 数 ， 如 字符 串 比 较 卫 数 ( strcmp)， 是 在 1ib/ 日 录 下 执行 的 。 加 
密 应 用 程序 编程 接口 (APT) 被 隔离 到 一 级 日 录 crypto/ 下 。 它 们 的 尖 文 件 (* .hn) 以 及 其 他 
常见 的 基文 件 ， 如 TCP 头 部 ， 被 所 有 内 核 模块 共享 位于 include/ 目 录 下 ， 
最 后 ， 由 Linux 定义 的 通用 框架 ， 也 属于 这 一 类 别 ， 这 些 包 括 块 设备 接口 ， 位 于 block/ 目 录 下 ， 
以 及 安全 框架 及 其 实施， 例如 ， 安 全 增强 Linux (SELinux) ， 位 于 security/ 目 录 下 。 虽 然 声音 
体系 结构 称 为 高 级 Linux 声音 体系 结构 (ALSA) ， 也 是 Linux 中 的 通用 体系 结构 ， 但 我 们 喜欢 把 这 
样 的 文件 放 在 驱动 程序 类 别 下 。 这 是 因为 在 sound/ 目 录 下 的 大 多 数 文件 其 实 是 设备 驱动 程序 
文件 系统 Linux 在 fs/ 目 录 下 支持 儿 十 个 文件 系统 的 实现 。 所 有 文件 系统 的 核心 ， 称 为 虚拟 文件 系 
统 (VFS)， 是 一 个 抽象 层 ， 提 供 文件 系统 与 用 户 空 间 之 间 的 接口 。 简 市 言 之 ， 新 的 文件 系统 遵守 
VFS, 将 调用 register filesystem() 和 unregister filesystem() 分 别 用 于 向 内 核 注册 和 自身 
脱离 内 核 。 
在 这 些 文件 系统 中 ， 目 前 最 常见 的 一 种 可 能 是 第 三 种 扩展 文件 系统 (ext3) 。exl3 和 它 的 后 继 ext4 的 
源 代码 分 别 位 于 fs/ext3 和 fs/ext4 子 目 录 下 。 同 样 ， 著 名 的 网 络 文件 系统 (NFS) 的 源 代码 放 在 
fs/nfs 子 目 录 下 。 
。 网络 在 net/ 目 录 下 的 网 络 体系 结构 和 协议 栈 实 现 可 能 是 内 核 开 发 中 最 活跃 的 部 分 。 例 如 ， 自 
2. 6. 29 发 布 以 来 ，Linux 已 经 支持 了 WiMAX， 其 源 代码 放 在 net/wIMAX/ 子 目录 中 。B.2 节 将 
阐述 net/ 目 录 。 





( 


和 


在 Linux 2.6 之 前 ，initrd 是 从 文件 系统 的 镜像 产生 的 ， 即 将 文件 系统 的 布局 逐 字 节 地 转 储 。 为 了 做 这 样 的 工作 ， 
就 需要 管理 员 权限 ， 这 对 于 开发 人 员 可 能 不 方便 。Linux 2.6 中 添加 了 一 个 新 的 initra 格式 ， 直 接地 利用 用 户 空 
间 的 归档 文件 cpio 创建 initra， 这 样 所 有 的 用 户 都 可 以 进行 内 核 编译 而 不 用 麻烦 管理 员 。 

如 果 内 核 不 能 识别 实际 的 文件 系统 ， 即 它 存储 在 加 密 的 做 盘 上 ， 那 么 内 核 就 需要 initra 取出 实际 的 文件 系统 
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。 驱动 程序 “该 类 别 在 三 个 一 级 目录 drivers/、sound/ 和 firmware/ 内 包括 设备 蝶 动 程序 的 内 
核 源 代码 。 除 了 声卡 的 驱动 程序 外 ， 其 余 的 各 种 驱动 器 都 放 在 drivers/ 日 录 下 。 由 于 存在 一 
个 上 上 述 提 到 的 统一 的 sound ( 击 音 ) 体系 结构 ， 即 ALSA， 所 以 声卡 驱动 程序 移 旬 了 一 级 目录 
sound/ 下 。firmware/ 上 日 录 人 包含 从 设备 驱动 程序 中 提取 的 固件 镜像 文件 。 这 些 问 件 镜像 的 许可 
证 在 firmware/WHENCE 乙 中 

。 帮助 程序 大量 的 文档 留 在 Documentation/ 目 录 下 的 内 核 源 代码 中 ， 可 以 帮助 内 核 新 手 成 为 
大 师 级 高 于 。HOWTO 文件 可 能 是 你 应 该 首先 阅读 的 。 它 教 你 如 何 成 为 一 个 Linux 内 核 开发 者 。 
在 kernel-docs. txt 文件 中 列 出 了 数 以 吾 计 用 以 说 明 从 内 核 开发 到 驱动 程序 开发 的 在 线 文 档 . 
如 果 你 打算 参加 内 核 开 发 ，Codingstyle、 SubmittingDrivers.SubmittingPatches 和 
Pte process/subdirectory 下 的 文件 很 值得 一 读 。 在 这 个 目录 下 ,你 可 以 找到 一 

定 驱 动 程序 或 子 系统 的 设计 文档 例如， 与 文件 系统 相关 的 文件 位 于 filesystems/ 子 目 
TY 最 后 ， 若 要 知道 Documentation/ 目 录 的 全 貌 ，00 - INDEX 将 是 你 的 首选 
伴随 着 2. 6.24 的 发 布 ， 出 现 了 一 级 目录 samples/。 顾 名 思 义 ， 示 例 代 码 都 放 在 这 个 目录 下 。 
例如 ， 你 可 以 通过 Kconfig 文件 学 到 如 何 为 “make menuconfig” 接 口 添 加 自 定义 的 选项 日 
前 ， 在 该 目录 中 只 有 几 个 例子 ， 但 我 们 相信 在 以 后 的 版 本 中 数量 应 该 会 增加 
















































最 后 ， 图 B-1 二 本 enn dn das 20 个 一 级 目录 、 对 应 的 7 类 别 和 上 上 面 给 出 的 例子 . 
, | 帮助 程序 : 1 创建 | 全 二 
\ | Documentation/ |， | i 到 nitrd 
二 = 从 ‘ ! usr/ 1 
Os i Dd | 
ee : samples/ | seript/ | ， 网 络 人 
GORnMNE ur, Po l } ， WiMAX 
| 内 核 核心 ~ | i i 
a lib/ init/ ! Fe SCSI 
strenmp 1 | i Sd 下 


| 驱动 程序 


crypto/ | kernel/ | 
‘ aes. shal sl | ipey drivers/ | sound/ | bs A 
， firmware/ 




















shm_init.... ' security/ | 





Sn TY | include/ : ， 文件 系统 ， 地 定 体 系 结构 | 
ess a 1 ol sy vi | 
函数 声明 NE C= 

SN Me 2 Intel VT-x 





图 B-1 ”内核 源码 树 


B.2 网 络 的 源 代码 

在 上 述 这 些 目 录 中 ，include/、net/ 和 drivers/ 与 本 书 中 介绍 的 协议 最 相关 。include/ 目 录 
中 包含 声明 文件 (* . h)。 与 内 核 和 网 络 相 关 的 声明 分 别 是 在 include/1linux 和 include/net 目录 
下 。 例 如 ， 了 下 头 部 ，struct iphdr， 是 在 include/1linux/ip.h 中 声明 的 ,而 与 IP 相关 的 标志 、 常 
数 和 函数 则 是 在 include/net/ip.h 中 声明 的 。 

另 一 方面 ，net/ 目 录 具 有 与 网 络 相关 的 大 部 分 代码 。 具体 地 说 ， 常 用 的 核心 两 数 定义 在 net/core 
下 的 .ce 文件 中 ， 如 dev. c 和 skbuff. c- 套 接 字 接 口 的 实现 是 在 net/ socket. c 中 完成 的 。TCP/IPv4 
协议 的 代码 位 于 net /IPV4 下 ， 如 ip: nput. Csip. output. Ctep ond. EscB 674. 和 tcp out- 
put. c。1[Pv6 协议 的 代码 放 在 net/ipv6 下 ， 如 ip6 _input. c .ip6 output.c 和 ip6 tunnel.c, 

最 后 ， 驱 动 程序 、 人 硬件 设备 和 操作 系统 之 间 的 接口 ， 是 在 drivers/ 目 录 下 实现 的 。 在 这 个 目录 下 
有 很 多 子 目 录 。 以 太 网 网 络 接口 卡 的 驱动 程序 可 以 在 drivers/net 目录 下 找到 ， 例 如 ，3c501. c、 
3c501.h 作为 3Com 的 3c501 以 太 网 驱动 程序 。 在 第 3 章 中 讨论 过 的 PPP 协议 的 代码 也 是 放 在 这 个 日 录 





G 固件 是 一 种 机 器 代码 或 二 进 制 配置 ， 目 的 是 用 以 优化 硬件 的 功能 . 它 可 保存 为 镜像 文件 ， 即 固件 镜像 文件 ， 并 有 由 
既 可 以 与 驶 动 程序 一 起 编译 ， 也 可 以 在 运行 期 间 装 载 ， 而 且 是 由 厂商 提供 ， 因 此 来 需要 来 白 三 商 的 许可 证 
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， 例 如 ，ppp_generic. cs 

表 B-2 总 结 了 第 3、4、5 章 中 跟踪 过 的 目录 、 文 件 和 开源 实现 函数 。 当 跟踪 它们 时 ， 你 会 首先 发 
现 用 于 特定 源 代码 的 文件 ， 然 后 跟踪 在 此 表 中 列 出 的 主 隐 数 ， 以 便 了 解 程序 执行 的 主要 流程 。B.3 证 
介绍 有 效 跟踪 源 代 码 的 工具 


B. 3 源 代码 跟踪 工具 

有 多 种 浏览 Linux 源 代码 的 方法 ， 以 便 搜索 变量 / 清 数 的 声明 或 变量 /函数 的 用 法 (参考 )， 最 容易 
的 方法 是 在 Web 网 站 上 上 浏览 源 代 码 。 例如 ，LXR (http: /Alxr. linux. n0/)，Linux 的 交叉 引用 ， 提 供 了 
基于 Web 的 Linux 源 代码 索引 、 交 又 引用 和 导航 。LXR 的 搜索 功能 允许 你 搜索 一 个 变量 或 珊 数 的 声明 
和 引用 位 置 。 它 还 提供 全 文 检索 。 

另 一 个 黑客 常用 的 工具 是 cscope。cscope 是 一 个 交互 式 的 、 面 向 屏幕 的 工具 ， 它 允许 用 户 定位 
C、lex 或 yacc 源 文件 中 的 指定 代码 元 素 。 它 在 源 文件 中 使 用 符号 交叉 引用 定位 孙 数 、 函 数 调用 、 

宏 、 变 量 和 预 处 理 器 符号 。 作 为 一 个 例子 ，cscope 可 以 分 两 步 来 跟踪 Linux 源 人 代码。 首先 ， 在 源 代码 
的 目录 下 ， 可 以 通过 使 用 “find. -name“* . [chly] '-print | sort >cscope. files” 得 到 这 个 目 
录 和 子 日 录 ee cscope. files 的 文件 的 文件 名 列表 。 然 后 ， 可 以 通过 “cscope -b -gq -k” 
生成 符号 交叉 引用 数据 库 ， 默 认为 cscope. out。 现 在 ， 可 以 使 用 cscope -Gd 命令 搜索 变量 或 轴 数 。 在 C.3.1 

节 中 将 更 详细 地 介绍 cscope， 

最 后 ， 有 几 个 使 用 起 来 相当 得 心 应 手 的 源 代 码 文 档 生 成 器 工具 。 例如，Doxygen (http: // 
www. stack. nl/ ~ dimitriAdoxygenA) ， 是 在 GNU 通用 公共 许可 证 下 发 布 的 免费 软件 程序 ， 可 以 交叉 引用 文 
档 和 代码 以 便 生成 各 种 格式 的 文件 ,包括 HTML、Latex、RTF (MS-Word) 、PostSceript 、 超 链接 PDF 、/ 
缩 HTML 和 UNIX 帮助 手册 网 页 。 它 也 可 以 从 没有 归档 的 源 文 件 中 提取 代码 结构 。 有 很 多 方法 实现 代码 
结构 的 可 视 化 ， 包 括 依赖 图 、 继 承 图 和 协作 图 。 


例子 : 跟踪 IPv4 分 段 的 重组 
让 我 们 利用 第 4 章 中 的 图 4-19 作为 使 用 LXRWeb 站 点 跟踪 源 代码 的 例子 。 图 4-19 中 显示 了 IP 分 
组 分 段 重 组 过 程 的 调用 图 。 为 了 便于 解释 ， 我 们 将 它 重 绘 成 图 B-2， 


ne bh) 上-| ip_rev() 一 -| ip_route_input() | ip_local_deliver() 


Inip local deliver() 


是 
设置 了 more 或 offset 吗 7 和 ip_defrag() 


否 


























ip_local_deliver_finish() 





In ip_defrag( ) 


ip_find() 一 ip_frag_queue() 


inip find() 








ip_frag_reasm() 




















ipghashfn() 
inet_frag_find() 




















ip_frag_create() 


图 B-2 重组 过 程 的 调用 图 
接 下 来 ， 让 我 们 从 定位 ip local deliver() 函 数 开 始 。 为 了 能 够 找到 该 函数 ， 我 们 使 用 LXR 的 
Web 站 点 搜索 工具 栏 并 输入 ip local deliver 水 机 过 函数 ， 如 图 B-3 所 示 。 
个 只 630 区 | i 


图 B23 LXR 搜索 栏 
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LXR 返回 一 个 网 页 ， 指 示 了 两 种 信息 : 函数 在 哪里 实现 的 和 函数 在 哪里 声明 的 。 在 我 们 的 例子 中 ， 
如 图 B-4 所 示 ，ip local deliver() 的 代码 是 从 net/ipv4/ip input. c 文件 中 的 第 257 行 开始 
而 对 ip local deliver() 的 声明 是 在 include/net/ip.h 中 的 第 98 行 。 为 了 追踪 ip local 


的 ， 
我 们 可 以 点 击 net/ipv4/ip input. c 的 超 链接 。 


deliver() 的 源 代码 ， 





LXR |linux/ 3 


Code search: ip_local_deliver 


Eu wm 用 










Function prototyoe or dacaration 
includeinetiip h. lIne YH8 [usade.] 





图 B-4 LxR 的 搜索 结果 


除了 定位 代码 秃 数 的 声明 外 ， 各 岂可 尽数 的 用 这 二 入 ， 科 过 六 旨 T oe] 县 
接 ， 知 道 函 数 在 哪里 被 引用 调用) 。 例 如 ， 当 点 击 声 明 的 用 法 链接 时 ，LXR 返回 如 图 B-$ 所 示 的 参考 
信息 。 从 这 个 页 面 中 我 们 可 以 看 到 ， Ne () 被 在 两 个 文件 net/ipv4/ipmr.c 和 net/ 
ipv4/route. c 中 定义 的 函数 引用 了 6 次。 
LXR [linux/ 立 


Identifier: ip_local_ deliver 











加 
Func tion prototype or declaration at includeinetiip h 





line 








Includeinetip., 
i diip inpute, 
IPPC 





Petsrences 
ih, line 98 






































piel BC 











图 B-5 ip local deliver() 的 用 法 

如 果 我 们 点 击 net/ipv4 /ip anput. 所， LXR 将 返回 在 net/ipv4/ip input. & 中 ip local _ 
deliver() 的 代码 实现 ， 如 图 B-6 所 示 。 通 过 引用 图 4-19 的 调用 图 ， 可 以 清楚 地 了 解 是 否 有 偏 移 值 及 
是 否 设 置 了 more 位 或 offset 位 ，ip_defrag () 将 被 调用 。 因此， 通过 点 击 超 链接 (ip defrag) 


让 我 们 继续 跟踪 ijp_defrag () 代码 。 


deliver latruct Bk SUEE wakb) 





» lowal 
二 Reassembilie IP fragments. 


i ip har(skbhl->rIrasd Off & tons {IP NF | Th OFFSET}Y t 
if tip darrad lsat, IP _ DEFRAG LOCAL DELIVER)' 


return Os; 








return MF _ HOORIPFE INET, NF INET LOCAL IN, skbh, skh->dev, NULL, 
ip _ local deliver finish}; 














图 B-6 ip local deliver( ) 的 源 代码 
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LXR 将 显示 ip_defrag 的 搜索 结果 ， 如 图 B-7 所 示 。 该 网 页 会 告诉 我 们 ， 它 是 在 /net/ipv4/ip 
_fragment. c 中 实现 的 。 让 我 们 通过 点 击 链接 继续 跟踪 。 


LXR [linux/ y 


Code search: ip_defrag 








Function 
natipwdiip fradmentc, line S71 [usage.] 








Function prototype or veclaration 
iIncludeinetip hh, line 347 usaqe.] 








图 B-7 ip defrag () 的 搜索 结果 
图 B-8 显示 了 ip_defrag () 的 代码 。 再 次 参阅 调用 图 ， 经 过 一 些 琐碎 的 工作 后 ，ip defrag() 首 
先 调用 ip find () 查 找 或 为 该 分 组 的 分 段 创建 队列 头 部 。 然 后 ， 它 调用 ip_frag queue () 处 理 分 段 。 
如 果 所 有 的 分 段 都 收 到 了 ,那么 ip frag queue () 将 调用 ip frag reasm() 重组 分 组 。 





570| f/f* Process an incoming IP datagram fragment. */ 
上 S71| int ip Qefraglstruct sk burif *skh, Ww2 user 
é 





Struct ipdg *up; 


Struct ret *het; 


DEL = sb->dev 3 dev netr (skKbh->dev) : dev net ls ->dst->dewl; 
IP INC STATS EHInet, IPSTEATS NIE REASHREQDS); 








/* Start by clieaning up the memory. */ 
if (atomic readlsnet->ipv4.frags.mem) > net->ipv4.frags.high thresh) 
ip Evictor TDEL) : 








/* Lookup (or create) queue header */ 
iE TISP = ip findinet, ip hdariskb); usEcJ) !'= NULL) 
int rer; 








2pin lock(gp->d.1lock); 





ret = ip irag ueue TGS sb); 





spin unlockisgp->dq.1o0ck); 
ipu put (gp); 


EGUrh Eet, 





nanlanlinlianln 
Be De Da De rw re 
中 ml lc 


TIP_ INC STATS DBHI(DEE，IPSTATS_ MIB REASHFAILS); 
KEEEE skb (skb); 
return -ENOMEN; 








lan jan le 
ol ed 
wm t 


an 
ww 
on 


图 B-8 ip_defrag() 的 源 代码 
通过 点 击 ip_find 的 超 链接 ， 我 们 将 能 够 找到 函数 所 在 位 置 并 获得 其 源 代 码 ， 分 别 如 图 B-9 和 
图 B-10 所 示 。 而 且 ， 参 考 调用 图 ，ip find 首先 调用 ipqhashfn () 获得 散 列 值 ， 并 使 用 它 通过 调用 
inet frag find() 找 到 队列 头 部 。 


Code search: ip_find 


Function 





图 B-9 ip_find() 的 搜索 结果 


在 inet frag find() 中 ,如果 没有 找到 队列 的 头 部 ， 它 将 通过 调用 inet frag create () 创 建 
一 个 。inet frag find() 的 源 代码 如 图 B-11 所 示 。 
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e atruct ipyg *ip findlstruct net *net, struct iphdr tiph, ua32 User) 








Struct inet frayg dueue *#a; 
Struct ib4 create arg ary:; 
unsigned LE hash; 











read lockitibpd4 fraygs.1ock); 
hash = ipghaskhin{iph->id, iph->saddr, iphn->dador, iph->protocol); 








可 = inet frag findlsnet->ipvd4.frags, sip4 Erags targ, hash); 


if (og == NULL) 





return container ofig, struct ipg, 9)}; 


Gut nomem: 
LIMIT NETDEBUG (KERN ERR "2p fras coreate: no memory lert 全 
return NULL; 











图 B-10 ip find() 的 源 代码 


StruUSt inet. fag dueue *inet frag find(struct retns frads *rnt; 























26 struct dinet frags *E£, void *key, unsigned int hash) 
27D releases lf->1ock) 
次 党 到 
272 struct inet frag dueue *a; 
PE struct, hlist node *rny 
和 | 
到 当 hlist For seach CE ly ft-rhashlhash], List}) € 
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忆 了 各 if Ig->net == nf && f->matchidg, kevw)) 1{ 
久子 学 atomic inciédq->refcnt); 
278 read unlocktgf->1o0ck); 
| i | 
ZI0 return. gy 
280 } 
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read nlock{(gf->1lockl; 
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图 B-ll ip frag find() 的 源 代码 
进一步 阅读 
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在 B.3 节 中 ， 我 们 介绍 了 儿 种 源 代码 跟踪 工具 和 利用 LXR (Linux 交叉 参考 ) 的 应 用 例子 。 然 而 ， 
跟踪 仅 是 迈 向 理解 程序 的 第 一 步 ， 还 需要 其 他 步骤 来 完成 开发 过 程 。 本 附录 为 Linux 开发 人 员 介 绍 了 了 
一 套 完 整 的 综合 开发 工具 。，Linux 开发 人 员 可 以 在 Linux 主机 上 编写 程序 ， 但 要 在 一 台 非 Linux 的 目标 
机 上 运行 它 ， 反 之 亦 然 . 也 有 可 能 主 机 和 目标 机 器 都 是 基于 Linux 的 。 这 里 ， 我们 重点 在 Linux 主机 
|， 即 开 发 环境 ， 而 不 管 日 标 机 的 平台 是 什么 。 我 们 将 介绍 在 开发 过 程 中 从 编程 、 调 试 和 维护 一 直到 
轮廓 分 析 和 棕 入 等 各 个 阶段 所 使 用 的 必要 的 和 流行 的 工具 

C. 1 节 引 导读 者 利用 工具 开始 开发 的 旅程 。 民 好 的 开始 是 使 用 一 个 强大 的 文本 编辑 器 (如 改进 的 





视觉 (vim) 或 CNOME 编辑 器 (gedit)) 编写 第 一 段 代码 ， 然 后 使 用 GNU C 编译 器 (gcc) 进行 编 
译 ， 并 使 用 make 工具 进一步 月 动 化 某 些 重复 性 的 编译 步骤 
老 的 80/20 规则 仍然 适用 于 编程 ， 其 中 80% 代码 来 自 20 和 的 工作 ， 留 下 的 80% 工作 去 调试 余下 


20% 的 程序 。 因 此 ， 就 需要 一 些 在 C. 2 节 中 讨论 过 的 调试 工具 ， 包 括 源 代码 级 的 调试 器 ，CNU 调试 器 
(gdb); 带 有 图 形 用 户 界面 的 数据 显示 调试 右 (ddqq) 和 远程 内 核 调 试 须 ， 内 核 GNU 调试 器 
(kgdb)。 因 为 软件 组 件 之 间 的 依赖 性 更 为 复杂 以 及 贡献 源 变 得 更 加 分 散 ， 所 以 C.3 节 说 明了 开发 人 员 
如 何 使 用 cscope 管理 儿 十 个 源 文件 ， 并 且 合 作 开 发 人 员 应 对 版 本 控制 系统 达成 一 致 ， 如 全 球 信息 跟 
踪 器 (Git)， 以 避免 开发 混乱 并 且 易 于 合作 。 

为 了 找到 某 个 程序 的 瓶颈 ，C.4 节 向 开发 人 员 介 绍 了 如 何 利用 分 析 工 具 ，GNU Profiler ( gprof) 
和 Kernel Profiler ( kernprof)。C.5 节 介 绍 了 如 何 利 用 空间 优化 工具 加 快 上 脱 入 式 系统 的 移植 pusybox 
( 轻 量 级 的 工具 链 ) 、uclibc 和 根 文件 系统 的 胖 入 式 镜像 构建 工具 puildroot 

对 于 每 一 个 工具 ， 我 们 介绍 它 的 目的 和 功能 ， 随 后 再 用 例子 加 以 说 明 。 最 后 ， 提 供 一 些 技 巧 来 玫 
助 你 熟悉 工具 。 本 附录 并 非 是 一 个 完整 的 用 户 指 南 ， 但 应 该 可 以 作为 一 个 学 习 的 入 门 。 


C.1 编程 
本 节 介 绍 了 编程 的 重要 工具 ， 从 用 于 程序 编辑 的 vim 和 gedit 到 用 于 程序 编译 的 gcc 和 make 
这 里 没有 讨论 编程 语言 的 本 质 


C.1.1 文本 编辑 器 : vim 和 gedit 

不 论 选 择 什么 编程 语言 ， 你 都 震 要 有 一 个 编辑 融 ， 它 是 一 个 用 于 创建 和 修改 文本 文件 的 程序 。 它 
在 程序 员工 作 时 起 着 至 关 重 要 的 作用 ， 因 为 笨拙 的 文字 编辑 融会 浪费 时 间 ， 厕 有效 的 工具 则 能 轻松 地 
解决 问题 并 为 程序 员 留 下 更 多 的 思考 时 间 

什么 是 vim 和 gedit ? 

在 许多 文本 编辑 器 如 pico、joe 和 emacs 中 ，Visual Improved ( vim )，vi 的 一 个 改进 版 本 ， 是 
目前 最 流行 的 文字 编辑 器 之 一 。 它 在 易 用 性 和 功能 之 间 进 行 了 平衡 ， 比 emacs 使 用 起 来 更 友好 ， 比 
pico 具有 更 丰富 的 功能 。vim 有 一 个 可 扩展 的 句法 字典 ， 其 中 对 于 它 所 识别 的 文件 (包括 C 代码 和 
HTML) 会 用 不 同 的 颜色 突出 加 亮 句 法 显示 。 高 级 用 户 使 用 vim 来 编译 自己 的 代码 ， 编 写 安 ， 浏览 文 
件 ， 甚 至 可 以 编写 游戏 ， 如 TicTacToe 

作为 一 个 命令 行 编辑 顺 ，vim 被 管理 员 广 泛 应 用 。， 然 市 ， 作 为 划 面 应 用 程序 工具 ， 它 使 用 起 来 有 
点 复杂 。 内 置 的 CUI 编辑 器 、CNOME 编辑 器 (gedit) 常用 于 Linux 的 桌面 环境 中 。gedit 允许 用 户 
使 用 一 个 选项 卡 (tab bar) 编辑 多 个 文件 ， 像 vim 一 样 突 出 加 亮 句法 ， 拼 写 检 查 文本 ， 以 及 打印 文件 

如 何 使 用 vim 和 gedit 

在 和 开始 使 用 vim 之 前 ， 用 户 应 该 知道 vim 工作 在 两 个 阶段 (模式 ) 而 不 是 像 pico 或 其 他 普通 的 文本 
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编辑 器 那样 只 有 一 个 阶段 (或 模式 )。 尝 试 : 启动 vim (输入 vim 编辑 一 个 新 文件 或 者 vim filename 打开 
一 个 现 有 的 文件 ) ， 并 编辑 一 分 钟 。 如 果 你 不 输入 任何 特殊 字符 ， 那 么 在 屏幕 上 你 什么 都 看 不 到 。 当 你 按 箭 
头 键 尝试 移动 时 你 会 发 现 光 标 不 动 。 更 糟 的 是 ， 你 无 法 找到 退出 的 方法 。 这 些 最 初 的 障碍 阻挠 了 不 少 新 手 的 
使 用 。 然 而 ， 当 你 知道 什么 时 候 插 入 文本 以 及 何 时 发 出 命令 时 ， 这 些 问 题 就 迎刃而解 了 

在 正常 模式 〈 命 令 异 式 ) ， 字 符 都 被 视 为 命令 ， 这 意味 着 它们 会 触发 特殊 的 动作 ， 例 如 ， 分 别 按 
下 h、ji、k 和 1 向 左 、 上 、 下 和 右 移动 光标 。 然 而 ， 在 插入 模式 ， 字 符 只 是 以 文本 搬入。 大 多 数 命令 者 
可 以 合并 成 一 个 更 复杂 的 操作 

[ 相 ] commands [ 要 ] target， 

括号 内 的 任何 内 容 都 是 可 选 的 。 相 是 一 个 可 选 的 数字 ， 例 如 , 3， 是 指定 命令 要 进行 3 次 ; command 
是 任何 有 效 的 vim 操作 ， 例 如 ，y 是 复制 文本 ; #2 是 男 一 个 可 选 的 数字 ， 类 似 于 机 ， 指 定 被 command 
影响 的 目标 数量 (或 范围 ); 而 t 是 你 将 commang 应 用 的 文本 ,例如 ，G 为 文件 的 结束 。 虽然 大 多 数 
的 命令 显示 在 主屏 幕 上 ， 但 有 些 冒 号 命令 (以 冒号 开始 的 命令 ) 显示 在 屏幕 的 最 底部 。 人 处理 这 些 冒 号 
命令 时 ， 需要 输入 一 个 冒号 ， 将 光标 移动 到 屏幕 的 最 后 一 行 ， 然 后 发 出 命令 字符 串 ,， 按 下 < Enter > 
( 回 车 键 ) 来 终止 它 。 例 如 , :wa 将 保存 当前 文件 并 退出 ，vinm 文本 编 错 器 的 全 部 操作 模式 在 图 C-l 中 
显示 。 重 要 的 编辑 命令 在 表 C-1 中 列 出 。 
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其 他 合 信 | 冒号 命令 [a [4| 附加 (在 光标 / 行 之 后 ) 
|»| [| [oj 打开 新 的 行 (之 后 /之 前 ) 
保存 ESC a| 侍 换 (一个 字符 /许多 字符 ) 
q es 
和 插入 模式 
本 rz 




















Z || 之 | 快速 退出 


图 C-1 vim 文 本 编辑 融 的 操作 模式 
表 C-1 光标 移动 和 文本 编辑 的 重要 命令 



































命令 模式 效果 命令 模式 效果 

| | 总。 于 此 者 柄 FREE 前 进 、 后 退 到 字符 ¢ 
wa 前 进 到 下 个 字 ,空间 分 开 字 | | Rn 屏幕 的 上 、 中 、 下 部 
本 前 进 到 字 结 束 ， 空 白 分 开 字 vy 复制 当前 行 
ba 后 退 到 字 的 开始 ， 空 自分 开 字 | 复制 | :y 复制 当前 行 

运动 CG 句子 后 退 、 前 进 称 复制 直到 行 结束 

0 1 段落 后 退 、 前 进 pa 删除 当前 行 
0,s 开始 , 行 结束 Wy 训 删除 当前 行 
iG.6 开始 ， 文 件 结束 | a 删除 直到 行 结束 
nG 或 者 :n 只 | 
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gedit 的 使 用 比 vim 简单 得 多 。 一 个 正在 编辑 的 文件 会 显示 在 编辑 区 域 中 ， 这 里 你 可 以 用 鼠标 定 
位 并 突出 加 亮 显 示 文 本 。 选 项 卡 列 出 所 有 被 编辑 的 文件 。 如 果 一 个 文件 是 修改 过 的 就 标记 一 个 星 号 但 
不 保存 。 选 项 卡 提供 了 最 简单 的 方式 来 创建 、 打 开 、 保 存 和 打印 文件 。gedit 的 一 张 屏幕 截图 如 
图 C2 所 示 ， 
技巧 
。 vim 工作 在 两 种 模式 : 插入 模式 和 命令 模式 。 如 果 你 对 插入 模式 命令 感到 困惑 ， 你 可 以 按 ESC 
键 问 到 命令 模式 。 
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图 C-2 截取 屏 荣 : gedit 的 主 窗口 


C. 1.2 编译 器 : gcc 

手边 有 一 个 文本 编辑 咒 ， 人 们 就 可 以 开始 编写 程序 了 。 那么 你 还 需 查 一 个 编译 器 ， 将 高 级 语言 编 
写 的 源 代 码 转换 为 二 进 制 目标 代码 。 由 于 经 常 需要 集成 已 经 编译 过 的 现 有 例 程 ， 第 二 阶段 处 理 使 用 一 
种 称 为 连接 器 的 工具 ， 通 过 它 将 编译 过 的 代码 与 已 有 的 例 程 连接 起 来 以 便 创 建 最 终 的 可 执行 应 用 程序 。 
gcc 编译 带 的 多 阶段 过 程 如 图 C-3 所 示 。 


| 
< 有 
5 


什么 是 gcc 

默认 支持 ANSI C 的 GNU C 编译 器 (gece) 是 一 个 存在 于 大 多 数 UNIX 系统 上 的 非常 著名 的 C 语言 
编译 带 。 它 主要 由 Richard Stallman 编写 ， 他 成 立 了 一 个 慈善 的 、 免 费 软件 基金 会 (FSF) ， 以 筹集 资 
金 从 事 CNU 项 目 工 作 。 并 在 其 他 倡导 者 的 努力 下 ，gcc 已 经 集成 了 多 个 编译 器 (C/C ++ 、Fortran、 
Java) ， 现 在 称 为 CCC 编译 器 集合 ， 
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汇编 程序 (gas, | 44 区 
ee 二 | 国 "" 














预 处 理 器 (cpp， ne 
C 预 处 理 器 ) 编译 器 ) 








图 C-3 gcc 的 工作 流程 图 





























器 预 处 理 器 的 输出 通常 下 接送 入 编译 器 中 
QO 1ANSIC 比 传统 的 C 在 类 型 二 要强 一 些 ， 它 可 能 更 容易 帮助 你 在 编码 期 间 及 时 发 现 一 些 错误 。 
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如 何 使 用 gcc 
假设 你 正在 编写 一 个 程序 ， 并 已 经 决定 分 成 黄 个 源 文件 。 其 中 一 个 主 文件 称 为 main. c， 男 一 个 为 
sub. c。 为 了 编译 程序 ， 你 可 能 只 二 赤 输 入 : 
gee mai 8 SU: 忆 
将 默认 地 创建 一 个 名 为 a. out 的 可 执行 程序 . 如果 你 愿意 ， 你 可 以 指定 可 执行 文件 的 名 称 ， 例 如 ， 
Prog， 通 过 以 下 命令 : 
dco prog ma 还 区 sulb; 人 tT 
正如 你 可 以 看 到 的 ， 它 很 简单 。 但 是 ， 这 种 方法 可 能 非常 低 效 ， 特 别 是 如 果 你 每 次 只 更 改 一 个 源 
文件 ， 并 且 当 你 不 断 地 重新 编译 它 时 更 是 如 此 。 相反 ， 你 应 该 如 下 编译 程序 : 
dee =CG Main.e 
Siee =e SB 
gee -0 prog main.c sub.o 


前 两 行 创建 目标 文件 main.o 和 sub. o， 第 三 行将 对 象 连 接 成 一 个 可 执行 的 文件 。 如 果 你 只 更 改 了 
sub.c， 那 么 只 需要 输入 最 后 是 行 ， 就 可 以 重新 编译 程序 

对 于 上 上 上面 的 例子 ， 这 一 切 似 乎 有 点 笨拙， 但 如 果 你 有 10 个 源 文件 而 个 入 丙 个， 那么 后 一 种 方法 会 
为 你 节省 很 多 时 间 。 实 际 上， 整个 编 冯 过 程 可 以 自动 完成 ， 你 可 以 在 下 一 节 看 到 。 

技巧 

使 用 gcc 时， 有 两 种 常见 的 错误 。 一 种 错误 指示 源 代 人 码 中 的 句法 错误 ， 男 一 种 错误 就 是 当 连 接 对 
象 文件 wi 现下 解析 的 符号 ge a 下 显示 句法 错误 


Te 5 EXEGE IEeSSaSeS 


error: 5 Mm ges 
三面 语句 的 意思 是 ，sourcefile 中 行 #num 附近 可 能 有 错误 .值得 注意 的 是 ， 错 误 并 不 总 是 
#num， 例 如， 铺设 是 由 于 括号 委 失 或 者 有 不 必 旧 的 括号 造成 时 ， 报 告 的 #mum 可 能 会 离 实 际 的 错误 点 
很 远 ， 
未 解析 的 连接 符号 的 格式 为 : 


9 objectfile: In functicn'function caller 
se Sourcefile: undefined reference to'function callee 


该 语句 告诉 开发 人 员 琐 数 function callee 在 连接 时 ,不 能 解析 。 未 解析 的 函数 由 文件 
sourcefile 中 的 陆 数 function caller 使 用 , 为 了 解决 这 个 问题 ， 可 以 检查 是 和 否 有 一 个 包含 
function callee 的 必要 的 对 象 文件 或 库 是 未 连接 的 . 


C. 1.3 自动 编译 : make 


虽然 一 次 成 功 、 无 错 的 编译 过 程 肯 定 是 一 大 快 事 , 但 在 程序 开发 期 间 不 断 重复 的 编译 处 理 过 程 将 
是 程序 员 的 一 件 苦 差 事 。 一 个 可 执行 程序 ， 可 从 数 十 或 数 百 个 .c 文件 中 构建 ， 要 求 所 有 的 . c 文件 使 
用 gcc 编译 为 .o 文件 ， 然 后 再 连接 在 一 起 ,很 可 能 还 要 与 额外 的 库 例 程 连接 。 这 个 过 程 是 繁琐 并 且 
可 能 发 生 错误 的 。 这 就 是 为 什么 要 使 用 make 的 原因 。 

什么 是 make 

make 是 一 个 能 够 提供 比较 高 级 的 方法 来 指定 所 需要 的 源 文 件 ， 建 立 一 个 派生 对 象 和 步 又 以 便 和 月 动 
化 构建 过 程 的 程序 。make 减少 了 出 错 的 可 能 性 ， 并 简化 了 程序 员 的 工作 。 需 要 注意 的 是 ，make 为 许 
多 常用 的 动作 (如 将 .c 文件 转变 为 .o) 提供 隐 式 规则 或 捷径 

如 何 使 用 make 

make 处 理 一 个 称 为 Makefile 的 文件 。Makefile 中 的 基本 句法 是 : 


target: dependencies 
<command list> 


它 告 诉 make 通过 执行 命令 列表 从 dependencies 中 产生 target。 依赖 性 需要 在 产生 当前 目标 之 前 
解决 ， 这 为 通过 分 治 的 方式 构建 一 些 大 的 应 用 程序 带 来 了 某 些 机 会 。 

例子 

在 图 C-4 中 的 例子 中 ，Makefile 的 内 容 首 先 由 命令 cat 列 出 来 。 这 个 Makefile 说 明 prog 依 
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赖 于 两 个 文件 main. o 和 sub.o， 而 且 除 了 常见 的 头 文件 incl.h 外 ,它们 还 依赖 于 对 应 的 源 文件 
(main.c 和 sub. c)。 通过 执行 命令 gcc， 依赖 性 、main. o 和 sub. o， 编译 后 自动 连接 到 目标 prog。 
技巧 
。 在 编写 Makefile 中 ， 每 条 命令 证 名 的 开头 都 要 放置 一 个 TAB 字符 





二 

S cat Makefile \ 
#Any line beginning witha # sign 1s a comment and will be 
# ignored by the “make™ command. To generate the executable 
# programs. simply type “make™. 


Makefile 的 内 容 
gee -0 prog main.o sub.o 
main.o: inel.h main.e 


gce -ce nan 





sub.o: incl.h sub.e 
gce -ce sub.e 

Sls 

inclh main.e Makefile prog sub.e 一 一 编译 前 

S make 


$1s 


inclh main.e main.o Makefile prog sub.e sub.o 一 一 编译 后 











图 C-4 make 的 一 个 例子 


C.2 调试 

当 编写 程序 时 ， 除 非 是 太 微 不 足 道 ， 和 否则 必须 尽 最 大 努力 找 出 和 更 正 程序 中 的 错误 。 这 种 找 出 错 
误 的 过 程 称 为 调试 ， 使 用 的 工具 是 调试 峰 。 一 般 来 说 ， 调 试 器 的 目的 是 让 你 调查 程序 运行 时 内 部 发 生 
了 什么 或 者 程序 崩溃 时 程序 正在 做 什么 这里， 我 们 介绍 三 种 调试 器 : 常用 的 ，gdb; 图 形 化 的 版 本 ， 
add 和 远程 内 核 调试 器 ，kgdb 


C. 2. 1 调试 器 : gdb 

在 Linux/FreeBSD 中 使 用 的 传统 调试 器 为 gdqb，CNU 项 目 调 试 器 。 它 工作 在 不 同 的 语言 环境 中 ， 
但 主要 是 针对 C 和 C++ 的 开发 人 员 。 昌 然 gdb 是 一 个 命令 行 界面 ， 但 它 也 有 几 种 图 形 界 面 ， 如 ddd。 
此 外 ，gdb 也 可 以 运行 在 串 行 链 路 上 用 于 远程 调试 ， 如 kgab， 

什么 是 gdb 

gqdb 可 以 做 的 事情 主要 有 4 种 ， 再 加 上 上 支持 这 些 的 其 他 东西 ， 可 以 帮助 你 当场 发 现 错误 : 

1) 局 动 程序 ， 指 定 任何 可 能 影响 其 行为 的 任何 事情 。 

2) 在 特定 条 件 下 让 :程序 停止 。 

3) 当 程 序 已 经 停止 运行 时 ,检查 发 生 了 什么 状况 。 

4) 调整 程序 ， 以 便 你 能 够 测试 更 正 错误 后 的 效果 。 

如 何 使 用 gdqb 

可 以 阅读 官方 gdb 手册 来 学 习 有 关 gdb 的 所 有 内 容 。 然 而 ， 几 条 命令 就 足以 开始 使 用 调试 器 。 在 
将 可 执行 程序 装 入 gdb 前 ， 目 标 程序 (如 prog) 应 该 带 -g 标志 进行 编译 ， 例 如，gcc -g -o prog 
Prog.c 

然后 ， 使 用 命令 gdab prog 来 启动 gdb。 接 下 来 你 应 该 看 到 一 个 gdb 提示 符 。 然 后 使 用 命令 List 
浏览 源 代 但 ， 默 认 情 况 下 显示 当前 函数 的 前 10 行 源 代 码 ， 接 下 来 调用 1ist 显示 接 下 来 的 10 行 等 。 

当 试 图 定位 一 个 错误 时 ， 进 入 gab 后 就 可 以 再 一 次 运行 程序 并 确保 重新 产生 错误 。 然 后 ， 你 可 以 





加 这 是 一 个 历史 遗留 问题 ， 但 没有 人 愿意 去 改变 它 
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backtrace (回溯 ) 看 到 一 个 栈 跟 踪 ， 这 通常 就 可 以 找 出 问题 出 在 哪里 。 现 在 你 可 以 青 次 使 用 List 
确定 问题 的 位 置 ， 使 用 next 逐步 执行 ， 慎 重 利 用 命令 符 break 设置 断 点 并 利用 命令 print 打印 变 
量 你 应 该 能 够 定位 错误 ， 并 最 终 quit gdb。 顺便 说 一 句 ，gdb 具有 一 组 信息 页 面 并 且 也 有 内 置 的 帮 
助 ， 这 些 可 以 通过 help 命令 来 访问 

例子 

在 图 C-5 的 例子 中 演示 了 一 个 常见 的 由 于 内 存 分 配 造 成 的 编程 故障 。 当 程序 首次 在 gdb 中 运行 时 ， 
它 导致 一 个 分 段 故障 。 我 们 检查 当前 栈 中 的 帧 ， 发现 它 可 能 是 一 个 在 函数 Hello 中 的 错误 。 因 此 在 这 
里 设置 一 个 断 点 ， 并 再 次 运行 程序 ， 当 到 达 断 点 时 ，gdb 会 暂停 。 我 们 浏览 源 代码 ， 并 step p 辆 笠 。 我 
们 检查 变量 str 后 ， 找 到 错误 : 指针 没有 有 效 的 内 存 地 址 。 





$ sdh pio 

GNU gdb (GDB) Fedora (7.0.1-35.fc12) 

Copyright (C) 2009 Free Software Foundation. Ine. 

License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html> 
This is free software: you are free to change and redistribute it. 

There is NO WARRANTY, to the extent permitted by law. Type “show copying” 
and “show warranty™ for details. 

This GDB was configured as ”“i086-redhat-linux-gnu 

For bug reporting instructions, please see: 
<http://www.gnu.org/software/gdb/bugs/>... 

Reading symbols from /home/book/C.2. 1/prog...done. 

(gdb} run 

Situting proaranm: /home/book /CC.2.1 proe < 一 一 段 错 误 
Prosram revelived sisna SIGSEGN nentattion dawult., 

0x0029bs46i in memcpy () from /lib/libe.so.6 

Missing separate debuginfos. use: debuginfo-install glibe-2.11.1-1.1686 
(gdb) huackimace 





#0 OXOODIbS40 in memepy (trom Mibilibe. sa. 一 一 一 检查 当前 栈 中 的 帧 
并 | ONOOOUOVOO Im 22103 

(gdb) hreak Hello 下 一 一 设置 晰 点 
Breakpoint 1 at Ox804841e: file sub.e, line %. 

(gdb) run 


The program being debugged has been started already. 
Start it from the beginning? (y or n)y 


Starting program: /home/book/C.2.1/prog 


Breakpoint 1, Hello () at sub.c:8 
8 char*str = NULL: 
(gdb) list 

3 





#include “incl.h™ 


4 

3 

0 void Hello() 

3 1 > 当前 源 代码 
8 char*str = NULL.: 

9 strepy(str, “hello world\n 
10 printfl(str); 

| 

(gdb) next 

9 strepy(str. “hello world\n™): 单 步 程 序 
(gdb) Pmnt st 
S1 = Ox 一 一 一 检查 一 个 变量 
(gdb) guit 

A debugging session is active. 





Inferior 2 [process 24886] will be killed. 








l Quit anyway? (y or n)y 





图 C-5 一 个 利用 gdb 调试 的 例子 


456 调 录 CC 





C. 2.2 ”GUI 调试 器 : dqd 

什么 是 ddd 

由 于 gdb 和 许多 其 他 工具 是 命令 行 调试 器 ， 使 用 起 来 就 没有 那么 友好 ， 所 以 数据 显示 调试 器 
(Data Display Debugger，dad) 为 所 有 这 些 调试 器 提供 了 一 个 方便 的 前 台 。 除了 具有 gdb 已 有 的 功能 
外 ， add 之 所 以 很 受 欢 迎 ， 是 因为 它 的 交互 式 图 形 数据 显示 ， 它 将 数据 结构 都 显示 成 图 形 ， 

如 何 使 用 daa 

为 了 使 用 daa， 还 必须 利用 包括 调试 信息 来 编译 代码 。 在 UNIX 中， 这 意味 着 你 应 该 在 gcc 编译 
命令 中 全 汪 ~ 9 选项 。 如果 你 以 前 从 来 没有 运行 过 aaa， 你 可 能 要 在 命令 行 提示 符 下 输入 “aaad -- 
gdpb” 告 诉 ddd 使 用 gdb 调试 占 。 你 只 需要 这 样 做 一 次 。 随后， 为 了 运行 ddd 你 输入 “ddd --prog”， 
这 重 prog 是 程序 的 名 字 < ， 就 会 弹出 一 个 如 图 C-6 所 示 的 窗口 。 























*Alloc -Var Eo { = 攻 = 
STruct © Whtr = (Struct © 7JmaTTGCcTSTZEDOTTSFrUCE 7) RUn 断 点 
ptr—>var4 = Cstrue tb *)malloc(sizenf (struct by 1 Ee 

ptr 一 >Yarq4->var2 = tstruct a *)malloc(tsizeof Cs truct a)); 

return ptr; 





Struct ¢ *va 
var = Alloc. 人 Xs 


return 0; [- 滚动 条 





源 代码 窗口 





| ad greptr 到 spjay 加 ptr 

Cadb) graph display *ptr dependent on 1 1 Se 

Cadb) araph display *Cptr—>var4) dependent on 2 i 调试 控制 台 
dey graph display “(Cptr—>var4->var2) dependent on 3 mi - 








Dioplay 1 OEr Va var tenabiod) stope RYioe VAar taddrece xd0adba ”7 一 一 状态 行 
图 C-6 截图 : ddd 的 主 窗口 


图 C-6 中 一 切 的 重心 是 源 代码 。 当 前 执行 的 位 置 由 一 个 箭头 指示 ， 断 点 显示 为 一 个 停止 标记 。 你 
可 以 使 用 工具 栏 上 的 Lookup (查找 ) 按钮 或 者 使 用 “文件 ”( File) 菜单 下 的 open Source 按钮 浏览 
代码 。 双 击 函 数 名 ， 就 可 以 找到 它 的 定义 。 使 用 “命令 ”( Command) 工具 中 的 Ungdo 和 Reclo 按钮 ， 
你 可 以 导航 到 前 面 和 后 面 的 位 置 一 一 类 似 于 Web 浏览 融 

在 源 代 码 窗口 某 条 语句 的 左边 空白 区 间 中 右 击 ， 可 以 设置 和 编辑 断 点 。 为 了 单 步调 试 程序 或 者 继 
续 执 行 ， 可 以 使 用 右边 的 浮动 命令 工具 。 命令 行 爱好 者 还 可 以 在 底部 找到 一 个 调试 控制 台 。 如 果 你 还 
有 其 他 的 需要 ， 尝 试 使 用 “帮助 ”( Help) 菜单 寻找 详细 说 明 . 

将 局 标 指名 移动 到 一 个 汗 工 的 误 量 上 -， 会 在 一 个 小 的 弹出 式 屏幕 中 显示 其 值 。 更 复杂 的 值 快 照 可 
以 在 调试 控制 台中 “输出 ”。 为 下 未 入 地 查 涯 -， 个 变量 ,使 用 Display 按钮 。 这 将 创建 一 个 永久 性 的 
数据 窗口 ， 显 示 变 量 名 及 其 值 。 每 次 程序 改变 其 状态 时 这 些 显 示 痢 会 被 更 新 。 

为 了 访问 一 个 变量 值 ， 必 须 将 程序 运行 到 变 量 实际 上 是 活跃 的 状态 下 。 也 就 是 说 ， 位 于 当前 执行 
位 置 的 范围 内 。 通 常情 况 下 ， 在 感 兴趣 的 函数 内 设置 一 个 断 点 ， 运 行程 序 ， 从 的 

为 了 真正 可 视 化 数据 结构 即 数据 以 及 相互 间 的 关系 )，dda 允许 你 通过 双击 指针 变量 由 现 有 的 
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显示 器 创建 一 个 新 的 显示 器 。 例 如 ， 如 果 你 已 经 显示 了 一 个 指针 变量 列表 ， 那 么 你 可 以 取消 对 它 的 引 
用 ， 并 查看 它 所 指向 的 值 。 每 一 个 新 的 显示 融会 以 支持 列表 和 树 的 简单 可 视 化 的 方式 自动 地 展示 。 例 
如 ， 如 果 一 个 元 素 已 经 拥有 前 驱 ， 那 么 其 后 继 将 与 这 两 个 一 致 地 显示 。 你 可 以 通过 直接 拖 放 显示 随意 
地 手动 移动 元 素 。 此 外 ，dqd 界面 可 以 左 布 滚动 ， 设 计 结 构 ， 手 动 更 改 值 ， 或 者 在 程序 运行 时 观察 它 
们 的 改变 。 撤 销 / 重 做 (Undo/Redo) 功能 甚至 可 以 让 你 重新 显示 程序 以 前 和 以 后 的 界面 ， 因 此 你 可 以 
看 到 数据 结构 是 如 何 演 变 的 。 


C.2.3 内 核 调试 器 : kgdb 

什么 是 kgdb 

kgdb 是 一 个 用 于 Linux 内 核 的 源 代 码 级 的 调试 器 ， 它 提供 了 一 种 使 用 前 面 介绍 过 的 调试 器 gdb 
调试 Linux 内 核 的 机 制 。kgbd 是 一 个 内 核 补丁 ， 一旦 打 过 补丁 后 你 就 需要 重新 编译 内 核 , 它 允许 用 
在 开发 主机 上 运行 gdb 以 便 连 接 到 目标 〈 通 过 串 行 RS -232 线路 ) 运行 打 过 kgqb 补丁 的 内 核 。 和 
内 核 开发 人 员 就 可 以 “进入 ”目标 的 内 核 中 ,设置 断 点 ,检查 数据 ， 以 及 其 他 人 们 期 望 的 相关 调试 功 
能 。 事实 上 ， 这 与 人 们 使 用 gdb 在 用 户 空间 程序 上 所 做 的 非常 类 似 ， 

由 于 kgdb 是 一 个 内 核 补 二， 所 以 它 在 目标 机 融 内 核 上 增加 了 以 下 组 件 : 

1 ) gdb 根 一 一 gdb 根 是 调试 器 的 核心 。 它 可 以 处 理 来 自 开 发 机 器 (或 主机 ) 上 gap 的 请 求 ， 控 
制 目标 机 天 上 所 有 处 理 需 的 执行 流 。 

2) 修改 故障 处 理 程序 一 一 当 发 生意 外 错误 时 ， 内 核 将 控制 交 给 调试 器 。 不 包含 gdb 的 内 核 在 出 
现 意外 故障 时 产生 错误 ( panics)。 修 改 故障 处 理 程序 允许 内 核 开发 人 员 分 析 意 外 故障 。 

















) 串 行 通信 一 一 该 组 件 在 内 核 中 使 用 串 行 驱动 程序 ， 并 在 内 核 中 提供 到 gdb 桩 的 接口 。 它 负责 
在 串 行 线路 上 发 送 和 接收 数据 。 该 组 件 也 负责 处 理 从 gdb 发 送 的 控制 断 点 请 求 。 
如 何 使 用 kgdb 


自 Linux 内 核 2. 6. 26 以 来 ，kgqdb 已 经 集成 到 了 主流 的 内 核 源 代 码 树 中 。 你 所 要 做 的 就 是 在 内 核 配 
置 中 激活 kgqdb 选项 ， 然 后 编译 并 安装 打 过 kgdb 补丁 的 内 核 。 为 了 强制 内 核 暂停 引导 过 程 ， 并 等 待 来 
月 gdb 的 连接 ， 应 该 将 参数 “gab” 传 递 给 内 核 。 这 可 以 通过 在 LILO 命令 行内 核 名 字 之 后 输入 
“gdb” 来 完成 。 将 默认 的 串 行 设备 和 波 特 率 设置 为 ttyS1 和 38400。 这 些 参 数 可 以 在 命令 行 中 通过 使 
用 “ggdbttys=” 和 “gqbbaud =” 来 更 改 。 

当 内 核 启 动 到 需要 等 待 来 自 gdp 客户 端的 连接 点 时 ， 生生 让 人 上 完成 3 件 事 : 设置 目标 机 
带 可 接受 的 波 特 率 ,设置 它 使 用 的 串口 ， 重 新 启动 目标 机 器 。 这 些 可 以 通过 以 下 3 条 命令 在 gab 中 
完成 : 

Set remotebaud <your baud rate> 

s target remote <the local serial port name> 

CONt inue 
为 了 在 目标 机 带 上 触发 调试 模式 ， 既 可 以 在 目标 机 器 上 按 下 Ctrl-C， 也 可 以 从 开发 机 器 上 使 用 gdb 命 
令 interrupt (中 断 )。 然 后 ， 可 以 使 用 所 有 gab 命令 来 跟踪 或 调试 目标 Linux 机 器 。 

提示 

。 在 目标 机 上 设置 成 功 后 将 在 内 核 启动 期 间 显示 一 a 等待 远程 调试 …” 的 提示 消息 。kgadb 

将 等 竺 来自 开发 机 器 的 命令 ， 以 便 指 示 它 的 下 一 步 。 通 常情 况 下 ， 将 得 到 gdb 命令 continue 
(继续 ) 。 如 果 没 有 任何 输入 命令 ， 目 标 将 冻结 ， 








C.3 维护 
当 软 件 项 目 很 小 时 ， ee 然而 ， 当 项 目 变 大 时 ， 
各 变 得 很 难 记 住 一 切 了 。 你 需要 一 个 工具 来 帮助 你 管理 数 百 个 变量 和 函数 声明 。 同 样 的 道理 ， 好 的 项 





日 也 出 自 优 秀 的 开发 者 团队 。 代 码 开 发 者 必 etn he 本 节 介 绍 
cscope， 它 为 单个 开发 者 处 理 源 代码 的 浏览 任务 ， 而 Git 为 代码 开发 者 控制 源 代码 。 
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C.3.1 源 代码 浏览 器 : cscope 


什么 是 cscope 

cscope 是 开放 源 代码 的 浏览 工具 ， 最 初 是 由 贝尔 实验 室 开 发 的 。2000 年 ， 它 是 开源 的 。cscope 
使 你 能 够 搜索 变量 、 宏 、 函 数 声明 、 被 调 函 数 和 函数 调用 者 ， 以 及 蔡 换 文本 ,其 至 能 调用 外 部 文本 编 
辑 融 来 修改 源 代码 。 它 如 此 强大 ， 以 至 于 AT&T 公司 用 它 来 管理 涉及 500 万 行 的 CLC + + 代码 项 目 。 

如 何 使 用 cscope 

使 用 cscope 的 第 一 步 是 从 源 文件 (. c) 和 头 文件 (. hn) 建立 交叉 引用 表 。cscope 默认 这 些 文 
件 的 列表 是 以 名 为 cscope. files 的 文件 编写 的 。 因 此 ， 可 以 发 出 以 下 的 UNIX 命令 来 准备 
cscope. files: 

# find . -name’*. [chly]'-print | sort > cscope.files 
可 以 利用 下 面 的 命令 告诉 cscope 来 构建 交叉 引用 表 : 

s Cscope -b -9 [-k] 
其 中 标志 -b 构建 交叉 引用 表 ， 标 志 -q 激活 构建 反 向 索引 表 ， 标 志 -k 是 一 个 可 选 的 标志 ， 只 有 当 项 目 是 
内 核 源 代码 的 一 部 分 时 才 使 用 。 执 行 命 令 后 ， 创 建 3 个 文件 : 

cscope. out : 交叉 索引 表 

cscope. in. out 和 cscope. po. out: 反 向 索引 表 

接 下 来 运行 cscope。 尝 试 如 下 命令 ， 将 执行 带 有 文本 模式 用 户 界面 的 cscope: 

se Cscope -d 

这 里 标志 -da 指示 使 用 现 有 的 交叉 引用 表 而 不 更 新 它们 。 此 外 ，cscope 可 以 与 emacs 或 者 vim 结 
合 ， 如 通过 将 “cs add cscope. out” 添 加 到 . vimrc 中 实现 与 vim 的 集成 。 

例子 

图 C-7 显示 了 一 个 cscope 屏幕 截图 。 有 两 个 区 域 显 示 在 cscope 界面 上 上 。 一 个 是 cscope 国 数 列 
出 的 命令 区 域 。 另 一 种 是 显示 查询 结果 的 结果 区 域 。 可 以 通过 按 下 TAB 键 ， 在 这 两 个 区 域 之 间 切 换 。 
此 外 ， 通 过 在 该 区 域 使 用 UP 和 DOWN 键 ， 可 以 在 命令 区 域 切换 命令 或 者 在 结果 区 域 选 择 结果 。 尝 试 在 
命令 区 域 中 指定 一 个 函数 名 , “查找 这 个 C 符号 ”(EFinad this C Symbol) ) ， 结 果 将 显示 在 结果 区 域 
内 。 现 在 ， 可 以 切换 到 结果 区 域 ， 选 择 一 个 项 目 . 按 下 回 车 键 (Entez ) 调 用 外 部 文本 编辑 器 来 修改 它 
最 后 ， 按 下 ? 键 为 你 显示 帮助 手册 ， 按 下 CTRL-D 退出 cscope。 





C Symbol: AHoe War 区 


File Function Line 
Oincl.h <global> 18 extern struct e*Alloc_Var_ CO): 结果 区 域 
1 mainc main 7 var = Alloe_Var_C(): 


2 subie Alloc Var C 13 structe *Alloe Var C()f{ 


Fit thrs © symdol: 

Find this global definition: 

Find functions called by this function: 
Find functions calling this function: 
Find this text string: 

Change this text string: 命令 区 域 
Find this egrep pattern: 

Find this file: 

Find files #including this file: 
Find all function definitions: 
Find all symbol assignments: 











图 C-7 运行 cscope 的 一 个 例子 
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提示 

。 当 你 忘记 了 一 个 符号 的 全 名 时 ，cscope 命令 “Find this egrep pattern”( 查 找 本 egrep 的 
模式 ) 可 以 帮助 你 找 出 你 想 要 的 搜索 

。 当 你 需要 一 次 改变 一 个 广泛 地 分 布 在 许多 文件 中 的 符号 名 称 时 ,使 用 cscope 命令 ，“Change 
this text string”( 更 改 这 个 文本 字符 串 ) 。 


C. 3.2 版 本 控制 : Git 

什么 是 Git 

Git” (全 球 信息 跟踪 器 ) 是 一 个 源 代码 控制 系统 ， 最 初 由 Linus Torvalds 所 开发 。Git 的 两 个 车 
名 特点 是 高 性 能 和 分 布 式 体系 结构 。 因 为 它 的 高 效率 ,有 目前 有 数 百 个 开源 项 目 ， 包括 Linux 内 核 和 
Google Android 操作 系统 ， 都 是 由 Git 来 控制 的 。Git 提供 分 布 式 控制 体系 结构 。 每 个 开发 人 员 通 过 使 
用 Git 可 以 决定 何 时 以 及 如 何 分 支 一 个 项 目 。 

如 何 使 用 Git 

第 一 件 事 就 是 创建 一 个 库 。 库 是 一 个 包含 源 控制 项 目的 目录 。 既 可 以 通过 初始 化 一 个 容纳 工作 项 
日 的 目 湛 ,也 可 以 从 一 个 现 有 的 Git 控制 的 项 目 克 隆 来 拥有 一 个 库 。 可 以 通过 以 下 命令 来 完成 : 

dit i111t Proyect drectary 
或 者 ， 

s git clone git controlled url 
这 里 git_controlleqd url 是 其 他 开发 者 主持 的 Git 库 的 位 置 。git _controlled url 的 一 些 重要 
格式 列 于 表 C2 中 。 

表 C-2 ”Git 提供 的 重要 git_controlled_url 

















格 式 描 述 Gil 检查 的 例子 
local path 在 local path 上 的 Git 库 Git 克隆 /home/ Bob/project 

_ E a Git 克隆 https: /1.2.3.4/pro- 
https: //host/path Git 库 由 Git 感知 的 web 服务 器 控制 a ph 
ject. gi 

https: A/host/ path 与 [面相 同 ， 但 是 上 带 有 SSL 加 密 Gi 克隆 git: /7/1.2.3.4/project. git 

ssh: //user@ host/ Git 库存 储 在 host/remote path 中 , 可 以 Gil 克隆 ssh: //Bob@ 1.2.3.4/ 

remote_ path 使 用 ssH 协议 的 安全 隧道 访问 它 home/ Bob/ project 

. 有 本 5 Git 克隆 https: A//1.2.3.4/pro- 
gil; A//host/remotle_ path 通过 Git 协议 将 Git 库存 储 在 远程 主机 上 ri wl 
jecL gi 








创建 一 个 库 后 ， 就 可 以 创建 一 个 新 文件 或 者 修改 库 中 现 有 的 文件 。 提交 修改 之 前 ， 你 可 能 需要 检 
查 上 一 个 版 本 和 当前 工作 项 目 之 间 的 差异 。 可 以 通过 以 下 命令 来 完成 : 
» git difft 
为 了 提交 你 的 修改 ， 可 以 执行 以 下 命令 : 
s git add.; git commit =m"your log messages’" 
通常 ,一 个 项 目 在 并 发 过 程 中 会 留 下 儿 个 分 支 。 针 对 不 同 的 需求 来 进行 分 支 ， 有 些 分 支 实施 实验 
性 的 思想 ， 有 些 则 满足 不 同 客户 的 不 同 需 求 ， 男 一 些 则 是 里 程 碑 式 的 。 在 Git 中 创建 一 个 新 的 分 支 是 





中 实际 上 ，Cit 一 闻 出 自 英国 但 语 “ 乱 车 猪 尖 ， 总 是 认为 他 们 自己 是 正确 的 ， 好 和 争 六 的 。”Torvalds 该 谐 打趣 地 说 : 
“我 是 一 个 特 私 的 混蛋 ， 我 以 自己 的 名 字 命 名 我 所 有 的 项 目 。 首先 是 Linux， 现 在 则 是 Git。” 

名 阅读 在 Git 主页 上 的 Git 用 户 手册 ， 了 解 如 何 将 Web 服务 器 与 Git 集成 起 来 

加 SSH (安全 Shell) 是 一 种 网 络 协议 ， 在 两 台 网 络 设备 之 间 提 供 验 证 和 加 密 信道 ， 它 内 置 在 最 常见 的 Linux 发 行 
版 ， 如 Fedora 中 。 要 启用 它 ， 可 能 需要 重新 配置 防火 墙 设置 ， 允 许 进 入 流量 访问 端口 22， 并 启动 它 的 守护 进程 
sshd 

四 ”支持 Git 协议 最 简单 的 方式 是 通过 命令 来 运行 6it 守护 进程 :“ Git daemon”， 


460 府 姻 C 





通过 以 下 命令 实现 的 . 

git branch new branch name 

可 以 通过 以 下 命令 列 出 现 有 的 分 支 : 

4 git branch 
请 注意 ， 目 前 活 牙 的 分 支 都 标 有 一 个 星 号 ， 默 认 分 支 的 名 称 是 主 分 支 。 分 支 之 间 的 切换 可 以 通过 以 下 
命令 来 完成 : 

as git checkoeut branch name 
将 一 个 分 支 与 当前 活跃 的 分 支 合 并 ， 使 用 以 下 命令 : 

$ git merge branch name 
如 果 项 目 是 从 现 有 的 开源 项 目 中 克隆 的 ， 那 么 你 也 应 该 将 你 的 更 改 贡 献 给 开源 社区 。Git 为 代码 开发 者 
提供 多 种 合并 他 们 库 的 方法 。 最 简单 的 方法 是 通过 电子 邮件 发 回 源 代码 补丁 。 每 个 补丁 都 代表 一 个 版 本 
及 其 后 续 版 本 之 间 的 差异 。Git 使 用 下 面 的 命令 产生 一 系列 的 补丁 ， 从 克隆 时 开始 到 你 提交 的 最 新 版 本 。 

s git format-patch origin 
事实 上 上， 补丁 文件 被 格式 化 为 电子 邮件 文件 ， 因 此 它们 可 以 通过 电子 邮件 客户 端 直接 发 送 给 其 他 开发 
者 。 接收 者 使 用 命令 导入 补丁 : 

» Git am *.,patcoh 

例子 

虽然 Git 可 以 自动 合并 两 个 分 支 的 源 代码 ， 但 合并 针对 同一 代码 段 上 的 不 同 修改 所 造成 的 冲突 仍 
然 不 够 聪明 。 不幸 的 是 ， 这 很 常见 ， 尤 其 是 在 热门 的 开发 项 目 中 。 幸 运 的 是 ， 手 动 合 并 步骤 足够 简单 
能 让 每 一 个 人 学 习 掌握 。 

芍 虑 下 面 的 情况 : 两 个 分 支 以 不 同 的 方式 修改 相同 的 函数 功能 。 比 如 ， 一 个 分 支 为 bonjour ver- 
sion， 指 定 字 串 “Bonjour! mn” 给 变量 str。 第 二 个 分 支 为 goodday version， 修 改 同一 变量 , 但 是 关 
联 了 字符 串 “Good day! \n.”。 当 一 个 人 要 合并 这 两 个 分 支 时 ， 就 会 产生 冲突 。 

为 了 帮助 解决 这 些 冲突 ，Git 将 发 生 冲 突 的 代码 段 包 括 在 3 行 : < <<<<<<、====== 
= 和 > > > > > > > 中 。 在 小 于 符号 和 等 于 符号 内 的 代码 段 属 于 当前 分 支 ， 等 于 和 大 于 符号 内 的 源 代 
人 码 分 段 是 其 他 分 支 的 源 。 可 以 很 容易 地 找到 它们 之 间 的 区 别 ， 通 过 编辑 源 代码 来 解决 冲突 ， 然 后 成 功 
地 提交 正确 的 版 本 。 这 个 例子 在 图 C-8 中 说 明 





$ sit braneh 
bonjour_version | 当前 分 支 是 "goodday version™ 
ao0dday Vorsion 
master 
$ gf merge bonjour. Version 
Auto-merging sub.e | 首次 合并 分 支 失 败 
CONFLICT (content): Mysrev conllict wm suba 
Automatic merge failed: fix conflicts and then commit the result. 


$ head -13 sub.e 

#include <stdio.h> 
#include <string.h> 
#include <stdlib.h> 


#include “incl.h™ 
void printHello() 


人 
HEAD 


har “Sf Lit 
这 里 是 冲突 
char “str = Boniour 
>>> >> PONJOUr Version 
$visub.e < 一 一 手动 解决 冲突 
$ en dd el Connmit-ny a Merge versiom' 一 成功 合并 








[goodday_version 626937e] a merged version 





图 C-8 需要 手动 合并 GIF 冲突 的 例子 
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提示 

。 Cvs (并 发 版 本 系统 ) 是 男 一 种 源 代码 控制 系统 ， 非 常 像 一 度 流行 的 RCS (修订 控制 系 
统 )。 与 Git 不同 ,CVs 是 集中 式 的 。 也 就 是 说 ， 它 有 一 个 中 央 数 据 库 存储 所 有 项 目 。 每 个 
开发 人 员 都 可 以 到 他 的 私人 目录 中 检查 他 自己 树 的 副本 。 在 cvs 下 ， 多 个 开发 人 员 可 以 在 同 
一 时 间 工 作 在 同一 项 目 。 

eSVN 子 版 本 是 cvVs 的 后 继 者 ， 因 此 它 的 句法 看 起 来 像 原 来 的 cvVS。 与 CVS 相 比 ，SVN 的 主要 优 
点 是 它 支持 事务 。 因 此 ， 当 提交 多 个 文件 时 ， 按照“ 全 有 或 全 无 ”的 原则 ，sVN 保证 所 有 的 文 
件 或 者 都 成 功 地 提交 或 者 都 没有 改变 。 


C.4 分 析 

编码 和 调试 后 ， 程 序 现在 开始 执行 任务 了 。 如 何 才能 知道 程序 是 否 有 效 地 运行 ? 如 果 没 有 分 析 ， 
那么 你 可 能 需要 一 个 秒表 来 评估 它 。 分 析 (profiling) 会 记录 一 个 正在 运行 程序 的 统计 值 。 因 此 ， 开 发 
人 员 通 过 分 析 报告 可 以 测量 其 实现 的 性 能 。 本 节 介绍 了 两 个 分 析 工 具 ， 一 个 用 于 用 户 空间 应 用 程序 ， 
另 一 个 用 于 内 核 程序 。 


C.4.1 分 析 器 : gprof 
什么 是 gprof 
GNU 分 析 器 gprof 能 够 让 你 分 析 一 个 正在 运行 的 程序 。 它 将 分 析 结 果 报 告 分 为 两 个 表 ， 平面 分 析 
(flat profile) 和 调用 图 。 平 面 分 析 报 告 每 个 函数 的 调用 次 数 和 每 个 函数 消耗 的 时 间 。 调 用 图 进一步 详 
细 说 明 消 耗 的 时 间 以 及 某 个 函数 与 其 后 代 的 关系 。 检 查 gprof 的 结果 ， 使 你 能 够 找到 程序 中 的 瓶颈 和 
糟糕 的 设计 。 
如 何 使 用 gprof 
为 了 使 用 gprof， 程 序 必须 带 有 一 个 特殊 gcc 标志 -pg 重新 编译 ， 以 便 gcc 可 以 将 监控 和 记录 提 
交 给 程序 。 例 如 ， 为 了 启用 名 为 prog 程序 的 分 析 功能 ， 可 以 使 用 命令 
gece -pg -o prog main.c 
然后 程序 像 往常 一 样 运行 ， 以 便 收 集 分 析 结 果 。 将 结果 存储 在 文件 gmon. out 中 。 程 序 终 止 后 ， 可 以 
通过 执行 下 面 命令 来 读 取 结果 
sa gprof =b program name 
这 里 标志 -b 将 告诉 gprof 不 要 显示 详细 的 说 明 。 
例子 
在 图 C-9 中 显示 了 由 gprof 报告 结果 的 例子 。 有 3 个 清 数 funcA、funcB 和 funcc 可 以 被 主 例 程 使 
用 。 在 平面 分 析 中 报告 ，funca 消耗 了 大 部 分 时 间 ， 约 为 3.38 秒 ，funcB 反复 被 调用 了 101 次 。 在 
101 次 调用 中 ， 调 用 图 进一步 说 明 其 中 的 100 次 调用 来 自 funcc。 
提示 
。 为 了 分 析 后 台 守 护 进程 (daemon) ， 必 须 关 闭 其 后 台 守 护 进 程 的 功能 ， 因 为 只 有 当 一 个 程序 终 
止 时 才能 提供 分 析 结 果 。 在 大 多 数 情况 下 ， 可 以 按 如 下 步骤 做 ， 先 找到 函数 调用 daemon， 然 后 
再 将 它 注释 掉 。 
e 在 Linux 中 ， 有 两 个 知名 的 分 析 器 LTTng (lttng. org) 和 OProfil (oprofile. sourceforge. net ) 。 
LTTng 需要 使 用 由 LTTng 提供 的 分 析 API 或 者 由 测试 人 员 编 写 的 回调 函数 提交 目标 程序 的 源 代 
人 码 。Oprofile 能 够 在 不 修改 其 源 代码 的 情况 下 分 析 程 序 。 与 gprof 使 用 的 编译 器 协助 技术 不 
同 ，OProfile 得 益 于 内 核 驱 动 程序 。 与 OProfile 一 起 的 驱动 程序 定期 地 收集 统计 信息 。 
OProfile 的 优点 是 ， 它 可 以 在 没有 源 代码 的 情况 下 分 析 多 个 程序 〈 它 称 为 全 系统 分 析 器 ) ; 缺 
点 是 ， 它 的 系统 开销 太 大 并 需要 超级 用 户 权限 。 
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$ Eprof-hby 和 
Flat profile: 
Each sample counts as 0.01 seconds. 
HK Cumulative Self Self Total i 
time seconds seconds Calls s/call s/call name 下 面 分 析 
91.11 3.38 3.38 1 338 3.38 funcA 
8.89 3.71 DR3 101 0.00 0.00 funeB 
0.00 3.71 0.00 1 0.00 0.33 funcC 
Call graph 
Granularity: each sample hit covers 4 byte(s) for 0.27% of 3.71 seconds 
index Ftime self children called name 
<sPeontdtnettis> 二 调用 者 函数 
[1] 100.0 ”0.00 By nuin [1] 当前 苑 数 
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图 C-9 gprof 的 屏幕 截图 


C. 4.2 内 核 分 析 器 : kernprof 


什么 是 内 核 分 析 器 

kernprof 是 一 套 Linux 内 核 补 本 和 工具 , 由 硅谷 图 形 公司 (Silicon Graphics Intermational ，SGI) 以 
开源 的 形式 提供 。 利 用 kernprof ， 系 统 分 析 人 员 就 能 看 到 每 个 内 核 陋 数 消耗 的 时 间 ， 从 而 找到 内 核 
中 的 瓶 贷 ， 类 似 于 gprof 为 用 户 空 间 应 用 程序 所 做 的 。 

如 何 使 用 kernprof 

为 了 使 用 kernprof ， 必 须 为 内 核 源 代码 打 补 丁 。 因 此 ， 你 必须 首先 在 kernprof 的 网 页 上 上 下载 
与 你 的 内 核 版 本 相 匹 配 的 补丁 。 为 内 核 打 过 补丁 后 ， 你 可 以 重新 编译 并 安装 打 过 补丁 的 kernprof 内 
核 。 其 次 ， 必 须 手动 创建 一 种 字符 设备 ， 它 用 于 提供 用 户 空 间 控制 程序 (名 为 kernprof) 与 打 过 补 
丁 的 内 核 之 间 的 通信 信道 。 这 可 以 通过 以 下 命令 来 完成 : 

s mknod /dev/profile c 190 0 
其 中 , 值 0 代表 系统 的 第 一 个 CPU。 同样， 你 可 以 为 余下 的 每 个 CPU 创建 一 个 字符 设备 。 

kernprof 提供 多 种 分 析 模 式 。 程 序 计数 器 (PC) 抽样 模式 定期 搜集 执行 函数 的 信息 ， 其 结果 与 
gprof 生成 的 平面 分 析 类 似 。 Oe 个 调用 图 ， 这 对 于 内 核 跟踪 很 有 用 。 带 有 注释 的 调用 
图 模式 是 上 述 两 种 方式 的 混合 ， 因 此 结果 与 gprof 的 默认 输出 相 匹配 。 与 gprof 在 程序 运行 期 间 收 集 
信息 不 同 ， 你 必须 亲自 通过 发 出 的 命令 明确 地 局 动 与 关闭 kernprof。 例如 ， 用 注释 的 调用 图 模式 启 
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动 kernprof， 你 可 以 指定 命令 

* kermnprof sb st .aeg 
这 里 标志 -t acg 表示 注释 的 调用 图 模式 。 为 了 停止 kernprof 并 产生 一 个 可 读 结果 的 gprof， 即 
gnome. out。 可 以 使 用 以 下 命令 : 

s kernprof =e 

* Kernprof =g 


最 后 ， 通 过 发 布 以 下 命令 ， 也 可 以 使 用 gprof 阅读 结果 。 

* gprof file of vmlinux 

提示 

。 一 个 激活 使 用 ( enabled) kernprof 的 内 核 会 使 Linux 的 运行 变 慢 。 根 据 kernprof 的 常见 问题 解 
答 ， 它 可 能 会 将 系统 性 能 降低 15% 以 上 。 因 此 你 可 以 准备 两 个 内 核 ， 其 中 一 个 是 激活 使 用 
kernprof， 而 另 一 个 是 正常 的 ， 并 使 用 boot loader 引导 程序 在 它们 之 间 进 行 切换 ， 

。 除了 前 面 提 到 的 LTTng 和 oprofile 外 , 还 有 一 种 用 于 Linux 内 核 分 析 的 著名 分 析 工具 ， 内 核 
函数 跟踪 天 Kernel Function Tracer ，KFT (elinux. org/Kernel ”Function Trace)。 在 分 析 之 前 ， 
与 kernprof 一 样 ，LTTng 和 KFT 需要 内 核 补丁 ， 而 Oprofile 是 以 内 核 驱 动 程序 和 用 户 空 间 后 
全 守护 程序 的 方式 提供 。 因 此 ， 它 可 以 动态 地 加 载 并 执行 而 不 会 污染 内 核 源 代码 。 


C.5 内 入 式 
将 你 的 工程 移植 到 一 个 嵌入 式 系统 比 在 桌面 上 开发 难得 多 。 首 先 最 重要 的 设计 目标 是 前 减 代码 大 
小 ， 因 为 膀 入 式 系 统 具 有 有 限 的 资源 。 此 外 ， 你 可 能 需要 一 个 工具 链 ， 即 交叉 编译 融和 函数 库 ， 为 具体 


的 目标 结构 编 兰 和 链接 程序 ， 并 且 准 备 根 文件 系统 ,文件 系统 包含 “7/” 根 目录 和 有 局 动 所 需要 的 所 有 文 
件 和 目录 ， 如 /bin /etc 和 ydey 目录 。 有 开源 工程 来 帮助 你 构建 一 个 足够 微小 的 嵌入 式 Linux。 本 节 将 
讨论 如 何 使 用 空间 优化 的 公共 程序 〈 所 谓 的 工具 ) 、 和 轻 载 工具 链 和 柑 入 式 根 文件 系统 加 快 移植 工作 。 


C. 5.1 微小 的 实用 程序 : busybox 

什么 是 busybox 

需要 儿 十 个 基本 实用 程序 来 运行 一 个 Linux 应 用 程序 。 然 而 ， 这 些 实用 程序 中 的 许多 具有 共同 的 
例 程 ， 如 字符 串 复制 ， 很 少 使 用 的 函数 ， 如 按 需 帮助 ， 以 及 不 需要 的 文档 ， 如 操作 手册 。 最 好 删除 它 
们 以 降低 程序 的 大 小 。busybox 将 许多 常见 的 和 基本 的 实用 程序 集成 到 一 个 空间 优化 的 程序 中 。 

如 何 使 用 busybox 

因为 busybox 是 高 度 可 配置 的 ， 所 以 编写 一 个 定制 的 版 本 非常 容易 ,首先 ， 你 可 以 使 用 命令 

* make menuconfig 


来 选择 你 需要 的 实用 程序 并 禁用 一 些 不 必要 的 实用 程序 。 特 别 是 在 menuconfig 屏幕 上 上， 你 可 以 用 UP 





和 DOWN 键 来 移动 光标 ，Enter 键 来 选择 子 菜单 ，SPACE (空格 键 ) 选择 /去 掉 一 个 选项 ， 并 选择 
Exit 选 项 来 保存 和 退出 子 菜单 或 配置 。 图 C-10 是 menuconfig 的 截图 。 

其 次 ， 输 入 

» make 


来 编译 busybox， 它 将 在 当前 的 目录 下 产生 一 个 可 执行 的 、 名 为 busybox 的 程序 。 在 运行 时 通过 首先 
检查 其 名 字 busybox 充 兴 ed 所 以 你 必须 将 每 个 实用 程序 名 字 的 一 个 符号 连接 构建 到 
busybox 中 。 例 如 ， 如 果实 用 程序 find 被 busybox 替代 了 ， 符 号 链接 

find->busybox 
就 必须 存在 。 因 此 ， 安 装 pusybox 涉及 将 程序 复制 到 艇 入 式 系统 中 并 准备 符号 链接 。 

提示 

。 虽然 配置 和 编译 busybox 部 很 容易 ， 下 民 入 式 系统 中 真正 必要 的 。 一 个 捷径 是 观 

察 现 有 的 拣 入 式 Linux 系统 的 根 文件 系统 ， 例 如 ，C. 5.2 节 介 绍 的 由 buildroot 构建 的 根 文 件 系统 
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Arrow keys navigate the meny. <Enter> selects sdbmenus --->. 


Highlighted Letters are hotkeys, Pressing <Y> includes, <N> exctudes， 
“> modularizes features, Press «Est»<Esc» to exit, «7» for Help, «/» 
for Search, Legend; {*] built-in 上 ] excluded <M> module < > 





usybox Settings ---> 
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中 
onsole Utilities ---> 
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ditors ---> 
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图 C-10 busybox 的 配置 


C.5.2 内 入 式 开发 : uClibc 和 buildroot 


什么 是 uclibc 和 什么 是 puildroot 
GNUC i glibc 是 用 于 Linux 桌面 或 服务 右 系 统 最 常见 的 C 库 。 它 若 容 各 种 C 标准 和 遗留 系统 ， 
当然 兼容 性 会 增加 它 的 大 小 : 它 还 提供 了 许多 方法 来 优化 运行 速度 ， 虽 然 它 们 中 的 其 些 需要 更 多 的 内 
存 空 间 。uclibc 为 租 入 式 系统 进行 了 全 新 的 设计 因此， 一 个 与 uclibc 连接 的 程序 可 能 比 与 glibc 
连接 的 程序 小 很 多 
一 个 C 库 需 要 一 个 相应 的 工具 链 ， 也 就 是 说 ， 需 和 系统 软件 工具 来 帮助 程序 与 它 连 
接 。uclibc 开发 团队 认为 一 次 准备 所 有 这 些 的 最 容易 方式 就 是 使 用 buildroot 工程 。buildroot 
是 能 够 月 动 地 从 互联 网 下 载 所 震 要 软件 包 以 便 构建 一 个 定制 的 根 文 件 系 统 的 一 组 makefile。 上 默认 情 
况 下 ， 它 编译 并 将 程序 与 uClibc 连接 起 来 。 此 外 , 它 利用 C.5.1 节 介 绍 的 busybox。 因 此 ,由 build- 
root 构造 的 文件 系统 所 需要 的 空间 较 小 并 适合 艇 入 式 系统 使 用 
如 何 使 用 buildroot 
像 busybox 一 样 ，buildroot 是 高 度 可 配置 的 。 它 们 的 编译 步骤 是 相同 的 。 因此 ， 我 们 输入 命 
make menuconfig 来 配置 设置 ， 并 和 输入 make 编译 buildroot。 由 buildroot 工程 构建 的 文件 系 
统 镜像 位 于 binaries/uclibc/ 中 ,图 C-11 是 它 的 menuconfig 的 屏幕 截图 。 


全 


提示 
e 如 果 目 标 机 咒 与 开发 平台 具有 相同 的 体系 结构 ， 那 么 这 里 有 一 种 验证 构建 的 根 文件 系统 功能 性 的 
方法 。 第 一 步 是 要 定位 找到 编译 的 根 文 件 系统 。builaroot 编译 接近 结束 时 ， 一 个 变量 ，ro- 


otair， 就 是 我 们 所 此 寻求 的 。 假定 目录 名 叫 directory root， 也 就 是 说 ,rootdir =direc- 
tory_root-。 那么 ， 键 人 chroot directory root sh， 从 而 将 root 更 改 为 编译 过 的 
就 可 以 执行 任何 程序 就 好 像 他 已 经 安装 在 目标 机 上 上 一样 ,在 任何 时 候 ， 你 都 可 以 使 用 命令 exit， 

改 回 到 你 原来 的 根 。 





日 ”例如 ， 你 可 能 想 检 查 shell 脚本 是 否 可 以 调用 你 的 程序 ，/bin/your prog。 一 种 方法 是 将 一 切 放 到 目标 机 器 上、 
然后 真实 地 启动 脚本 验证 其 执行 流程 。 在 本 提示 中 提供 的 其 他 方式 是 在 开发 平台 上 启动 它 
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Suildroot Configuratian 
Arrow keys navigate the menu. <Enter> selects Submenus --->. 
Highlighted letters are hotkeys,. Pressing <Y> selectes a feature, 
White <N> will exclude a feature. Press <ESC><ESC> to exit, «<?> 
for Help, </> for Search. Legend: {*] feature is selected | ] 
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Target Architecture Variant (1386) ---> 

Target options ---> 

Build options ---> 
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Target filesystem options ---» 
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Load an Alternate Configuration File 
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图 C-11 配置 buildroot 
进一步 阅读 
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® R. M. Stallman, R. Pesch, and S. Shebs, Debugging with GDB: The GNU Source-level Debugger, 9th 
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9.CVS, http: //www. cvshome. org/ 
10. CNU gprof, http: /A/www. ces. utah. edu/ dept/ old/texinfo/ as/ gprof. html 
11. Kernprof, http: //oss. sgi. com/ projects/ kermnprof/ 
12. BusyBox, http: A/www. busybox. net/ 
13. uClibe, http: A/www. uclibc. org/ 
14. Buildroot ，http: //buildroot. uclibe. org/ 


附录 D 


| Computer Networks: An Open Source Approach 


网 络 实用 工具 


Linux 系统 用 户 和 管理 员 都 常常 需要 很 多 工具 来 帮助 他 们 理解 系统 。 例 如 ， 可 能 需要 检查 主机 的 IP 
地 址 或 者 查看 网 络 接口 的 流量 统计 值 。 另 一 方面 ， 除 了 在 附录 C 中 给 出 的 开发 工具 外 ， 开 发 人 员 也 可 
能 震 要 工具 来 观察 网 络 以 便于 更 容易 调试 进程 。 一 个 真正 系统 的 开发 前 后 ， 人 们 可 能 需要 模拟 〈 或 模 
仿 ) 系统 设计 并 测试 开发 的 系统 .综合 起 来 我 们 将 上 述 这 些 工 具 称 为 网 络 工 具 。 本 附录 将 这 些 工 具 分 
为 六 类 : 名 字 寻 址 、 边 缘 探 测 、 流 量 监控 、 基 准 、 模 拟 / 仿 真 ， 最 后 还 包括 黑客 工具 。 

D. 1 节 讨 论 了 名 字 寻 址 如 何 帮 助 了 解 互 联网 上 的 名 人 的 ,使 用 host 通过 DNS 查询 并 利用 地 址 解 
析 协 议 (arp) 和 接口 配置 (ifconfig) 获取 本 地 的 (例如 ，LAN) 名 人 录 。 当 网 络 不 能 像 预期 的 
那样 工作 时 ， 就 应 该 利用 D. 2 节 中 讨论 的 边缘 探测 或 者 ping 可 用 的 远程 主机 或 者 tracepath 任何 网 
络 瓶 颈 。 一 旦 完成 了 故障 诊断 ， 分 组 就 应 该 开始 流动 了 。D.3 节 给 出 了 用 于 流量 监控 的 工具 。 为 了 使 
用 tcpdump 或 Wireshark 详细 检验 头 部 和 有 效 载荷 ， 可 以 转 储 分 组 。 可 以 使 用 netstat 收集 有 用 的 
网 络 统计 值 和 信息 ， 

因为 性 能 是 一 个 关键 的 问题 ， 所 以 当 互 联网 络 的 性 能 通过 测试 后 才 认 为 它 是 可 以 工作 的 。 因 此 ， 
D.4 节 介 绍 标杆 管理 工具 ，TestTCP (ttcp) 对 主机 到 主机 的 重 吐 量 进行 分 析 。 另 一 方面 ， 开 发 一 个 
系统 而 没有 预先 评估 设计 通常 是 昂贵 的 和 危险 的 。 在 这 种 情况 下 ， 应 该 使 用 D. 5 节 讨 论 的 网 络 模拟 器 
(ns) 模拟 或 者 使 用 NIST Net 仿真 。 最 后 ，D.6 节 简 要 地 摘 述 了 Nessus 漏洞 扫描 (Exploit scanning ) 
的 黑客 方法 ， 这 可 能 会 有 争议 ， 但 是 放 在 这 里 作为 第 8 童 的 补充 。 


D. 1 名 字 寻 址 

通信 的 第 一 步 通常 是 将 对 等 的 名 字 解 析 为 IP 地 址 或 者 将 对 等 的 IP 地 址 解析 为 MAC 地 址 。 前 者 是 
第 6 音 讨 论 的 互联 网 的 名 人 录 ， 可 以 通过 域名 系统 (DNS) 来 完成 ; 而 后 者 是 在 第 4 章 中 学 习 过 的 本 
地 名 人 录 ， 可 以 通过 地 址 解析 协议 (ARP) 来 完成 。 本 节 将 讨论 名 字 寻 址 工具 如 何 帮 助 了 解 互联 网 或 
局 域 网 上 的 名 人 录 


D. 1.1 互联 网 名 人 录 : host 


什么 是 host 

host 是 一 个 程序 ， 能 让 用 户 查 询 IP 地 址 对 应 的 域名 ， 反 之 亦 然 。 它 实现 了 DNS 协议 与 本 地 DNS 
服务 器 的 通信 ， 依 次 查询 具有 了 映射 的 其 他 DNS 服务 需 。 

如 何 使 用 host 

使 用 host 很 简单 。 查 询 域名 的 IP 地 址 ， 直 接 执 行 下 列 命令 

“ host domain name 
同样 ， 寻 找 IP 地 址 的 域名 ， 可 以 如 下 操作 

9 host ip address 

例子 

在 如 图 D-1 所 示 的 例子 中 ， 我们 想 要 查询 www. google. com 的 IP 地 址 。host 告诉 我 们 ， 网 络 
www. google. com 有 一 个 别名 www. 1. google. com， 并 且 该 名 字 绑 定 了 6 个 IP 地 址 。 

提示 

e 默 认 情 况 下 ，host 向 系统 配置 的 本 地 DNS 服务 器 发 送 查 询 。 你 也 可 以 通过 以 下 命令 指定 一 个 

域名 服务 占 ， 如 target dns， 


* host query name target dns 
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www.google.coniis an alias for www.l.google.com. 
www.l.google.com has address 74.125.153.103 
Www.lgoogle.com has address 74.125.153.104 
www.l.google.com has address 74.125.153.105 
wwwl.google.com has address 74.125.1533.106 
www.l.google.com has address 74.125.153.147 
www.l.google.com has address 74.125.153.99 











图 D-1 使 用 host 的 一 个 例子 


D. 1.2 局 域 网 的 名 人 录 : arp 

什么 是 arp 

上 层 应 用 程序 间 的 通信 和 是 通过 IP 层 ， 市 在 局 域 网 内 实际 分 组 的 发 送 是 根据 MAC 地 址 。arp 是 一 
个 帮助 用 户 查 询 IP 地 址 的 MAC 地 址 ， 或 者 反之 亦 然 的 程序 。 管 理 员 也 可 以 使 用 arp 管理 整个 系统 的 
ARP 表 ， oa ARP 表 项 。 

arp 程序 内 部 是 完成 ARP 协议 。 基 本 上 ，azp 在 局 域 网 上 广播 一 个 ARP 请 求 信息 以 便 查 询 一 个 特 
定 IP 地 址 萌 局 壤 网 1 MAC 地 址 。 使 用 该 中 地 址 的 设备 会 发 送 一 个 单 播 ARP 回应 查询 主机 。 结 果 可 能 动 
态 缓存 在 查询 主机 的 系统 ARP 表 中 以 便 加 快 将 来 的 查询 响应 时 间 。 

如 何 使 用 arp 

使 用 arp 很 简单 。 为 了 查询 IP 地 址 的 MAC 地 址 ， 可 以 指定 命令 

es arp -a IP address 

使 用 下 列 命 令 在 ARP 表 中 添加 一 个 表 项 

“arp -s IP address MAC address 
删除 一 个 表 项 ， 使 用 下 列 命令 

s arp -d IP address 
最 后 ， 可 以 通过 输入 以 下 命令 浏览 系统 级 的 ARP 表 

s arp 

例子 

图 D-2 演示 了 系统 ARP 表 的 浏览 结果 。 在 桌面 上 ， 我 们 可 以 看 到 有 两 个 表 项 ，88 - router' cis. netu. 
edu. tw 和 140. 113. 88. 140 ， 绑 定 网 络 接口 eth0。 标 志 C 显示 这 是 系统 上 的 一 个 缓存 表 项 (不 是 一 个 静 
态 表 项 ) 。 








$ ip 

Address HWitype HWaddress Flags Mask Iface 
88-router.cs.netu.edu.t ether 00:19:06:e8:0e:4b { ethO 
140.113.88.140 ether 00:16:35:ae:f$:6c { ethO 








图 D-2 使 用 arp 的 例子 
提示 
。 当 LAN 内 的 一 台 主 机 改变 它 的 网 络 适 配器 时 ， 由 于 ARP 缓存 表 的 缘故 你 可 能 无 法 立即 访问 到 
它 。 为 了 解决 这 一 问题 ， 既 可 以 等 待 缓存 超时 也 可 以 使 用 arp-a 删除 上 述 缓存 表 项 


D. 1.3 我 是 谁 : ifconfig 
什么 是 ifconfig 
Ifconfig (InterFace CONFIGurator) 是 一 个 程序 ， 它 允许 用 户 查 询 IP 地 址 、MAC 地 址 和 网 络 接 
口 统计 值 。 管 理 员 也 可 以 用 它 来 配置 IP 地址 ， 并 启用 /禁用 网 络 接口 。 
如 何 使 用 ifconfig 
使 用 ifconfig 非常 简单 。 为 了 查询 网 络 接口 的 设置 ， 可 以 指定 命令 
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ifconfig {interface namel], 
这 里 interface name 是 一 个 可 选 的 参数 ， 用 于 指定 网 络 接口 。 没 有 指定 任何 参数 时 ，ifconfig 会 
显示 当前 活跃 接口 的 设置 。 管 理 员 可 以 使 用 

s ifconfig <interface names inet IP address 
设置 网 络 接口 的 IP 地 址 ， 并 使 用 

ifconfig <interface name> down/up 

禁用 /启用 接口 

例子 

图 D-3 是 使 用 ifconfig 的 例子 。 结果 说 明 该 系统 具有 一 个 接口 ， 名 为 eth0。 了 PP 地 址 为 
192. 168. 1.1，MAC 地 址 为 00:1D:92:F1:8A:E9。 接口 目前 为 活跃 的 〈 标 注 UP 标志) 并 且 已 经 传播 了 
296 781 个 分 组 (或 大 约 为 105MB) 。 其 他 输出 的 详细 含义 可 从 联机 手册 上 找到 。 





Link encap:Ethernet #) {1 ! \ 
Beast:192.108.88.255 Mask:255.255.255.0 
Ut addr: fe80::21d:92ff:fefl:8ae04 Scope:Link 
“BROADCAST RUNNING MULTICAST MTU:1S00 Metric:l 
RX Dp ackets: 1 147154 errors:0 dropped:0 overruns:0 frame:0 
PDTerrors:0 dropped:0 overruns:O carrier:0 
vol 0 Pt n:100 
RX bytes:312608565 (298.1 MiB) 
Memory:fe940000-fe960000 











图 D-3 使 用 ifconfig 的 例子 
提示 
@ 在 Microsoft Windows 平台 上， 有 一 个 类 似 的 命令 行程 序 ，ipconfig。 


D. 2 边缘 探测 
当 网 络 不 能 像 预期 那样 工作 时 ， 就 可 以 运用 边缘 探测 测量 工具 检验 主机 的 可 用 性 或 者 找到 网 络 的 
瓶颈 


D. 2. 1 探测 是 否 存活 : ping 
什么 是 ping 
ping 可 以 检查 从 主机 到 目 柳 机 洛 之 间 路 从 的 可 用 性 。 它 使 用 两 条 互联 网 控制 信息 协议 (ICMP) 
定义 的 消息 。 第 一 条 消息 是 ICMP echo 请 求 ， 这 是 从 主机 发 送 到 目标 的 消息 。 当 接收 到 请 求 时 ,目标 
使 用 一 条 ICMP echo 应 答 消 息 对 主机 做 出 回应 。 因 此 主机 就 能 知道 可 用 性 并 计算 请 求 和 应 答 之 间 的 时 
间 间 隔 
各 本 pig 
尝试 以 下 命令 
4 ping target machine 
检查 你 的 系统 和 目标 之 间 主 机 的 可 用 性 。 按 ctr1-c 终止 检查 ， 得 到 一 个 总 结 报 告 。 
例子 
图 D-4 中 的 例子 显示 了 ping 的 结果 。 通 过 阅读 结果 ， 我 们 可 以 知道 到 目标 192. 168. 1. 2 的 分 组 丢 
失 率 和 响应 时 间 ， 包 括 最 小 、 平 均 和 最 大 响应 时 间 。 
提示 
。 驮 认 地 ，ping 每 秒 发 送 一 个 请 求 。 可 以 通过 指定 的 标志 -i 调整 ， 即 
Bling -i 10 192.168.1 .57 
表示 每 隔 10 秒 发 送 一 个 ICMP echo 请 求 。 
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$ BI 

PING 192.168.1.2(192.168.1.2) 50(84) bytes of data. 

04 bytes from 192.168.1.2: icmp_seg=1 Ul=128 me=2.01 ms 

04 bytes from 192.168.1.2: iemp_seg=2 t=128 time=1.90 ms 每 次 夺 代 报告 
64 bytes from 192.168.1.2: iecmp_segq=3 {ttl=128 time=1.90 ms 








AC 
-= 192.108.1.2 ping Statisties --- 
3 packets transnitted. 3 received. } .time 2990ms 
= a ep 
= 1.9091.96272.017/0.044 ms 总 结 报告 





图 D-4 使 用 ping 的 例子 


D. 2.2 找 路 径 : tracepath 


什么 是 tracepath 

使 用 ping， 可 能 发 现 到 达 目 标的 分 组 天 失 率 蜡 常 高 或 者 响应 时 间 慢 。 为 了 找到 你 的 主机 和 目标 之 
间 路 径 上 的 “瓶颈 ”， 屿 要 使 用 tracepath 工具 

和 和 利用 IP 头 部 中 的 存活 时 间 (TTL) 字段 。 它 发 送 一 个 UDPXIP 查询 信息 ， 其 中 TTL 设 
蔷 为 1， 这 样 最 近 的 路 由 器 将 立即 向 源 回应 一 个 ICMP 超时 。 源 因此 可 以 计算 到 最 近 路 由 器 的 往返 时 间 
(RTT)。 同样 ，tracepath 在 查询 信息 中 设置 TTL 以 测量 额外 路 由 器 的 RTT， 有 了 这 些 RTT， 用 户 就 
可 以 找到 从 源 到 目标 路 径 上 的 瓶颈 .trzacepath 也 能 发 现 路 径 上 的 最 大 传输 单元 (MTU ) 

如 何 使 用 tracepath 

使 用 tracepath 很 容易 。 为 了 检查 到 达 目 标 机 器 的 路 径 ， 可 以 简单 地 使 用 命令 

s tracepath target machine 
可 以 添加 一 个 标志 -1 pktlen， 设 置 初始 查询 消息 的 大 小 ， 当 遇 到 从 中 间 路 由 器 反弹 回来 的 因 消息 太 
长 的 拒绝 时 ，trace-path 会 自动 调整 消息 长 度 . 一 个 可 选 的 /port 参数 可 以 附加 在 target _ 
machine 之 后 用 来 指定 在 UDP 查询 信息 中 的 日 标 端 口号 。 在 tracepath 的 某 些 版 本 中 ， 默 认为 
44444 ， 在 ee 则 是 随机 选择 的 .不幸 的 是 ， 有 些 路 由 器 只 回应 目标 端 所 范围 从 33434 ~ 33534 
之 间 的 查询 信息 ， 这 些 设 置 在 经 典 的 tracezroute 工具 中 - 因此 ， 当 你 使 用 二 具 时 ， 我 们 建议 你 明确 
地 指定 端口 号 (33434 是 一 个 好 的 神奇 的 号 码 ) 。 

例子 

图 D-5 显示 对 www. google. com 使 用 tracepath 的 结果 - 在 源 和 每 个 中 间 路 由 器 〈 以 及 目标 ) 之 
间 的 往返 行程 时 间 显 示 为 一 行 结 果 。 和 开始 ，tracepath 发 出 一 个 2000 字 节 的 查询 信息 。 第 一 跳 拒绝 





$ Tr Pa NY § a } 

1: Stanley.cs.netu .edu.tw (140.113.88.181) 0.048ms pre OW 
1: 88-router.cs.netu.edu.tw (140.113.88.254) 1.904ms 

1: 88-router.cs.nelu.edu.tw (140.113.88.254) 2.589ms 

2 140.113.0.198 (140.113.0.198) 0.824ms 

3; 140.113.0.166 (140.113.0.166) 0.753ms asymm 4 
4: 140.113.0.74 (140.113.0.74) 0.543ms asymm 5 
S$: 140.113.0.105 (140.113.0.105) 1.096ms 

0: Netu-NonLegal-address (203.72.30.2) S227ns 


7: TCNOC-R76-VLAN480-HSINCHU.IX .kbtelecom.net (203.187.9.233) 5.090ms 
83: TPNOC3-CO5-G2-1-TCNOC.IX.kbteleconm.net (203.187.3.77) 23.713ms 
9: TPNOC3-P76-10G2-1-COS.IX.kbtelecom.net (203.187.23.98) 10.498ms 


10: 72.14.219.65 (72.14.219.6S) 44.223ms asymm 11 
11: 209.85.243.30 (209.8S.243.30) 0.603ms asymm 12 
12: 209.85.243.23 (209.85.243.23) 0.003ms asymm 13 
13: 72,14 2338.130 0214.233:130} 14.260ms 

[4: ty-in-f99.1el100.net (74.125.153.99) 6.80O2ms reached 


Resume: pmtu 1500 hops 14 back 51 











图 D-5 使 用 tracepath 的 例子 
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， 并 要 求 tracepath 使 用 1500 字 节 ， 即 在 第 一 行 消息 “pmtu 1500”。1500 字 节 消息 对 所 有 其 余 
oe 可 加 括 当 的 。 最 后 ， 消 息 “asymm #” 代 表 由 tracepath 发 现 的 一 个 可 能 不 对 称 的 路 由 路 径 . 
提示 
。 traceroute 是 闻名 于 UNIX 世界 中 的 另 一 种 选择 。 但 是 ， 出 于 安全 考虑 ， 有 些 Linux 发 行 版 ， 
如 ubuntun ， 并 没有 包括 它 
etracert 是 一 个 在 Windows 平台 上 相 类 似 的 工具 - 不 使 用 UDP，tracett 而 是 使 用 ICMP echo 
请 求 作为 它 的 查询 消息 


D. 3 流量 监控 


网 络 互 连 协 议 的 实现 有 待 于 在 实际 网 络 上 的 验证 。 本 节 介 绍 流 量 监控 工具 。 分 组 可 以 转 储 以 便 能 
够 详细 地 检查 它们 的 头 部 和 有 效 载 位 ， 并 且 可 以 收集 一 些 有 用 的 统计 值 和 信息 。 


D. 3. 1 转 储 原始 数据 : tcpdump 

什么 是 tcpdump 

tcpdump 是 最 受 欢 迎 的 命令 行 嗅 探 豆 ， 能 够 让 有 特权 的 用 户 转 储 在 一 个 网 络 接口 上 接收 的 流量 
转 储 流量 可 以 立即 在 控制 从 上 输出 或 者 保存 在 文件 中 用 于 稍 后 的 分 析 。tcpdump 的 强大 来 自 使 用 了 
libpcap 库 ， 它 为 捕获 流量 提供 了 一 个 编程 接口 。Windows 平台 的 一 个 项 目 ，winDump 就 是 tcpdump 
的 移植 

如 何 使 用 tcpdump 

为 了 捕捉 到 所 有 信息 ， 你 可 以 只 输入 命令 

» tcpAdump 
并 按 下 ctr1-C 终止 捕捉 。 使 用 bepdiamp 更 常见 的 方式 是 设置 过 滤 条 件 ， 以 便 只 转 储 匹 配 条 件 的 分 组 。 
tcpdump 可 以 利用 很 多 过 滤 条 件 。 这 里 我 们 就 结合 实例 介绍 重要 的 条 件 ， 它 可 能 满足 最 常用 的 捕获 要 
求 以 便于 协议 分 析 。 有 具体 场景 如 下 : 你 想 要 记录 流 的 源 或 目的 IP 地 址 是 target machine，TCP 端口 
号 是 target _ports 假定 target machine 在 网 络 接口 eth0 tcpdump 命 命令 将 是 

® tcpdump -i eth0 -X -s 0 host target machine and port 80 

这 里 参数 -i eth0 告诉 tcpdump 追踪 经 过 eth0 的 分 组 ， 参 数 -x -s 0 请 求 tcpdump 输出 完整 分 组 包 

括 头 部 和 有 效 载 荷 ， 表 达 式 host target _machine 指示 主机 只 捕 提 源 或 目的 地 是 target machine 
的 分 组 ， 同 样 ， 表 达 式 port 80 限制 了 端口 号 。 





例子 
图 D-6 显示 追踪 两 个 ping 迭代 的 结果 。 为 了 将 捕获 限制 为 只 有 4 个 分 组 ， 可 以 指定 参数 -c 4， 
$ topdump -THU 注 1 ww ul NH 


tcpdump: verbose output suppressed. use -v or -vv for tull protocol decode 

listening on eth0. link-type ENIOMB (Ethernet). capture size 65535 bytes 

13:38:38.386024 IP 192.168.1.1 > 74.125.153.106: [CNP welo redoesr id 28763. seq 41. length 64 
Ox0000: 4500 0054 0000 4000 4001 719b 8c71 58b5 E..T..@.@.g..dX. 
Ox0010;: 4a7d 996a 0800 aaba 705b 0029 Se8e bl4b 1}.j....p[)..K 
Ox0020: dee3 0500 0809 0a0b OcOd OeOf 1011 1213 .... i 
Ox0030: 1415 1617 1819 lalb leld lelf 2021 2223 ..... ,1 # 
Ox0040: 2425 2627 2829 2a2b 2c2d 2e2f 3031 3233 So&， ()*+.—./0123 
Ox0050: 34353637 4567 

13:38:38.392037 IP 74.125.153.106 > 192.168.1.1: lOMEP echo reply. id 28763. seq 41. length 64 于 一 pins 的 响应 
Ox0000: 4500 0054 4c6d 0000 3301 722e 4a7d 996a E..TLm..3.r.J}. 
OxO010: 8e71 58b5 0000 b2ba 705b 0029 Sege bl4b .qX.....pl 人 ^..K 
Ox0020: dce3 0500 0809 0a0b OcOd OeOf 1011 1213 es A 
0x0030: 1415 1617 1819 lalb leld lelf 2021 2223 .., 上 捕获 的 分 组 
0x0040: 2425 2627 2829 2a2b 2c2d 2e2f3031 3233 $6 :十 .一 /0123 
Ox0050: 34353637 4567 


< 一 ping 的 请 求 














图 D-6 使 用 tcpdump 的 例子 
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其 中 有 两 列 给 出 一 个 被 指 获 的 分 组 : 左边 以 十 六 进 制 字符 给 出 ， 布 边 以 ASCII 字符 显示 。 不 可 输出 的 
字符 用 点 代替 


D. 3.2 GUI 嗅 探 器 :Wireshark 


什么 是 wireshark 

Wireshark 是 为 一 个 具有 GUI 功能 的 嗅 探 锅 。Ethereal 是 它 最 初 的 名 字 ， 这 个 项 目 于 2006 年 
被 更 名 为 Wireshark。 

如 何 使 用 wireshark 

在 Wireshark 中 开始 捕获 可 以 通过 按 下 菜单 栏 里 capture 捕获 子 菜单 中 的 Interfaces 按钮 来 
完成 。 也 可 以 在 子 染 单 中 找到 stop 按钮 。 

Wireshark 的 强大 来 自 它 友 好 的 用 户 界 面 。 如 图 D-7 所 示 ,， 在 Wireshark 的 主 窗口 有 4 个 主要 
区 域 。 第 一 个 区 域 是 过 滤 条 。 你 可 以 设置 过 滤 约 束 ， 既 可 以 直接 输入 过 滤 规 则 ， 也 可 以 使 用 表达 式 
Expression 按钮 。 第 二 个 区 域 显示 捕获 的 分 组 。 当 光标 指向 一 个 表 项 时 ， 它 的 描述 ， 如 MAC 地 址 ， 
会 显示 在 第 三 个 区 域内 。 最 后 ， 第 四 个 区 域 将 显示 完整 分 组 的 内 容 。 
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图 D-7 wireshark 的 屏幕 截图 
D. 3. 3 收集 网 络 统计 值 : netstat 


什么 是 netstat 

netstat 是 一 个 命令 行 工具 ， 能 够 显示 连接 状态 、 协 议 使 用 情况 的 统计 值 和 路 由 表 。 
如 何 使 用 netstat 

netstat 的 第 一 个 主要 功能 是 显示 连接 状态 。 可 以 键 人 以 下 命令 

netstat -an 





其 中 标志 -a 告诉 netstat 列 出 所 有 协议 的 状态 ,标志 -n 说 明 以 数值 形式 显示 结果 的 地 址 ， 这 要 比 显 
示 域 名 快 很 多 
netstat 的 第 二 个 功能 就 是 显示 协议 使 用 情况 的 统计 值 ， 可 以 通过 以 下 命令 来 完成 
和 etstat -ss 
最 后 一 项 功能 是 通过 执行 以 下 命令 给 出 路 由 表 


Et 人 At 下 


例子 

图 D-8 显示 了 a 从 图 D-8 中 可 以 看 到 这 人 台 机 器 正在 监听 许多 端口 〈 带 有 状态 LISTEN ) ， 
例如 ，80 (Apache Web 服务 )， 有 一 条 来 自 192. 168. 1. 2 的 连接 。 

提示 





。 连接 状态 作为 一 种 检测 黑 突 的 工具 也 非常 有 用 。 例 如， 拒绝 服务 (DoS) 攻击 的 特征 就 是 数 千 
个 非 LISTEN 连接 。 可 以 从 netstat 的 结果 逆向 追踪 攻击 源 。 
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二 
Active Internet connections (servers and established) 

Proto Reev-Q Send-Q Local Address Foreign Address Slate 
tcp 0 0 MO.0.022 D0.0.0.0:= LISTEN 
tep 0 0 0.0.0.0:80 (O00 LISTEN 











图 D-8 netstat 的 运行 结果 


D.4 标杆 分 析 法 
一 个 连接 好 的 网 络 只 有 经 过 测试 和 测量 才 认为 是 可 以 工作 的 。 本 节 介 绍 了 主机 到 主机 春 吐 量 分 析 
的 常用 标杆 分 析 工具 。 


主机 到 主机 吞吐 量 : ttcp 


什 妇 是 tt6B 

测试 TCP， 即 ttcp， 是 用 于 在 是 台 主 机 之 间 测 试 TCP 和 UDP 和 存 吐 量 的 标杆 程序 。 有 些 路 由 器 集 
成 了 这 种 工具 的 一 个 版 本 ,使 你 很 容易 评估 网 络 性 能 

如 何 使 用 ttcp 


ttcp 有 两 种 模式 ,分别 是 传输 模式 和 接收 模式 ， 分别 由 参数 -t 和 -上 来 指定 。 标杆 处 理 通过 在 一 
台 机 器 运行 ttcp 接收 模式 开始 ， 然 后 在 另外 一 台 机 器 上 运行 ttcp 传输 模式 。 你 可 以 使 用 不 同 的 工作 
负载 ， 在 传输 模式 的 ttcp 上 通常 以 文件 的 形式 给 出 。 工作 负 载 将 传输 到 接收 模式 的 ttcp。 统计 值 将 
会 在 传输 的 两 端 显 示 。 结果 将 包括 存 叶 量 和 LO 调用 次 数 / 秒 

例子 

在 图 D-9 所 示 的 例子 中 ， 发 送 方 读 取 文件 test file 作为 工作 负载 ， 并 将 它 传输 到 在 
192. 168. 1. 1 的 接收 方 。 接收 方 并 不 保存 收 到 的 内 容 而 是 直接 丢弃 ， 即 得 出 到 /aev/nul1。 结果 显示 
发 送 方 需要 12 500 次 VO 调用 以 便 传输 102 400 000 字 节 ， 接 收 方 测量 的 存 吐 量 为 723 557. 59KB/s。 





接收 方 Rd jy 
/dev/inull 192.108.1.1 | ttep-r: buflen=8192. nbuf=2048, align=16384/0, port=5001 tep 
| ttep-r: socket 
| ttcp-r: accept from 192.168.1.2 
ttcp-r 102400000 bytes in 0.14 real seconds = 5357 3 hE 十 + 十 
ttep-r: 12501 MO calls. msec/call = 0.01. calls/sec = 90451.93 








ttep-r: 0.0user 0.0sys 0:00real 57% Oi+0d 268maxrss 0+2pf 4705+15csw 











$ tp 492.168.1.1 < test file 

ttcp-t buflen=8192. nbuf=2048. align=16384/0. port=5001 tcp -> 192.168.1.1 
ttep-t: socket 

ttcp-t connect 

ttep-t: 472 0000) bytes in 0.14 real seconds = 724170.64 KB/seec +++ 

发 送 方 ttep-t: 1 325 LO calls msec/call = 0.01. calls/sec = 90521.33 

ttep-t: 0.0user O.1sys 0:00real 92% Oi+0d 260maxrss 0+2pf 0+10csw 





test_file 





192.168:12 





图 D-9 使 用 ttcp 的 例子 
提示 
。 为 了 在 发 送 方 一 侧 产 生 一 个 大 的 演示 文件 ， 可 以 如 下 使 用 命令 ga: 
edd if=/dev/zero of =demo file size = <size in 512 bytes > ， 这 里 if = /dev/ze- 
ro 告诉 dd 创建 一 个 内 容 填充 了 零 的 文件 ，of = demo_file 指定 输出 文件 名 字 ，size in 512 
_bytes 是 一 个 指示 输出 文件 大 小 的 数字 。 
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。 为 了 测量 UDP 春 吐 量 ， 可 以 在 调用 ttcp 时 指定 标志 -ua 


D. 5 模拟 和 仿真 
设计 开发 一 个 真实 的 网 络 会 非常 昂贵 。 在 设计 之 前 ， 可 以 完成 稍微 便宜 的 性 能 评估 。 模 拟 或 仿真 
工具 可 以 用 于 评估 全 部 网 络 或 者 网 络 组 件 的 设计 。 


D. 5.1 模拟 网 络 : ns 

什么 是 ns 

始 于 1989 年 作为 REAL 《实际 和 大 型 ) 网 络 模拟 需 的 变种 的 ns 是 一 种 协作 模拟 平台 ， 用 以 提供 
通常 的 参考 和 测试 套件 ， 以 模拟 不 管 是 有 线 还 是 无 线 网 络 的 状态 的 从 链 路 层 及 以 上 各 层 的 分 组 级 的 离 
散 事 件 。 它 的 几 个 强大 功能 包括 场景 生成 ， 这 可 以 创建 一 种 定制 的 模拟 环境 ， 并 在 nam (网 络 动画 ) 
帮助 下 实现 可 视 化 。 值 得 注意 的 是 ，ns 是 利用 C++ (用 于 ns 内 核 ) 和 oTcl (用 于 ns 配置 ) 两 种 语 
言 实现 的 ， 以 平衡 运行 时 效率 和 场景 编写 的 方便 。 该 项 目 就 是 众所周知 的 ns-2， 因 为 版 本 2 是 其 当前 
的 稳定 版 本 。 


如 何 使 用 ns 

编 尝 ns 很 容易 ， 因 为 项 目 有 一 个 可 以 自动 地 进行 配置 和 编 详 的 脚本 install。 使 用 以 下 命令 构 
建 ns: 

*# Cd ns-allinone-<version>;. /install 


其 中 < version > 就 是 ns 项 目的 版 本 号 。 截 至 2009 年 6 月 ， 最 新 的 版 本 是 2. 34。ns 模拟 用 oTcl 脚 
本 句法 编写 的 网 络 场景 。 假 设 已 经 编写 了 一 个 场景 脚本 ， 名 为 demo. tc1。 你 就 可 以 执行 如 下 命令 进 
行 模拟 : 

s ns demo.tcl 
场景 包含 网 络 类 型 、 拓 扑 结构 、 节 点 、 通 信 流 量 和 定时 事件 。 可 以 记录 模拟 过 程 ， 以 便 可 以 使 用 ns 工 
有 具 网 络 动画 模拟 器 (nam) 来 可 视 化 动画 过 程 。 

例子 

利用 orcl 脚本 语言 编写 网 络 脚本 有 点 儿 复 杂 。 幸 运 的 是 ，ns 项 目 有 很 多 例子 脚本 可 以 使 用 。 你 
可 以 在 目录 中 阅读 它们 : 

% ns-allinone-<version>/ ns-<version>/tcl /ex 

图 D-10 中 演示 了 例子 simple. tcl 的 模拟 结果 。 在 这 个 例子 中 ， 使 用 nam 将 4 个 节点 连接 起 来 ， 
调度 了 两 个 通信 流量 ， 记 录 和 可 视 化 了 模拟 过 程 。 





动作 按钮 








时 间 间 隔 控 制 条 














| -一 时 间 进 度 线 








图 D-10 nanm 的 截取 屏幕 
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D. 5.2 仿真 网 络 : NIST Net 


什么 是 NIST Net 
网 络 仿真 器 以 较 少 的 实验 配置 仿真 各 种 网 络 类 型 ， 它 提供 了 网 络 参 数 (如 延迟 、 委 失 、 抖 动 等 ) 
的 简单 用 户 入 口 。 利 用 NIST Net， 用 户 就 可 以 观察 很 多 网 络 统计 值 ， 包 括 分 组 延迟 、 分 组 重新 排序 


(由 于 延迟 变化 ) 、 分 组 委 失 、 分 组 重复 和 带宽 限制 。 图 D-11 说 明了 NIST Net 的 网 络 体系 结构 。 直 接 
连接 到 NIST Net 的 端点 通信 流量 经 历 网 络 参 数 的 冲击 ， 就 如 同 它 们 走 的 通过 大 的 网 络 一 样 。 





NIST 网 络 终端 点 …* 终端 扎 


-个 仿真 网 络 
图 D-11 NIST Net 的 网 络 体系 结构 

如 何 使 用 NIST Net 

NIST Net 由 用 户 空间 工具 和 内 核 模块 组 成 。 内 核 模 块 仿真 网 络 参 数 对 数据 流量 的 冲击 。 尽 管 是 
以 内 核 模块 给 出 而 不 需要 内 核 补丁 ， 但 NIST Net 的 编译 仍然 要 参考 Linux 内 核 源 代码 的 设置 ， 例 如 
在 /usr/src/linux/. config 中 的 内 容 。 因 此 ， 在 编译 NIST Net 之 前 ,需要 进行 内 核 源 代码 的 配 
置 。 这 些 可 以 在 Linux 内 核 源 目录 下 通过 输入 如 下 命令 来 完成 : 

» make menuconfig 
编译 并 安装 NIST Net 软件 包 之 后 ， 就 可 以 使 用 以 下 命令 来 装载 内 核 模块 : 

s Load.Nistnet 
现在 ， 用户 可 以 使 用 命令 : 

“ xnistnet 
配置 和 监控 NIST Net 

例子 

图 D-12 演示 了 xnistnet 程序 的 屏幕 截图 。 你 可 以 添加 一 个 源 / 目 的 地 对 并 使 用 程序 修改 它 的 网 
络 参数 。 地 址 对 的 通信 流量 将 经 历 网 络 参数 的 冲击 ， 如 延迟 、 带 宽 和 丢失 率 等 

源 /目的 地 对 





| 一 一 地址 对 的 仿真 属性 





























图 D-12 ”NIST Net 的 屏幕 截图 
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提示 
e 为 了 中 继 数据 流量 ，NIST Net 机 器 必须 配制 成 路 由 激活 模式 。 这 可 以 通过 在 文件 /proc/sys/ 
net/ipv4/ip forward 上 将 值 设置 成 1 来 完成 。 换 句 话说， 命令 为 


echo 1 > /proc/sys/net/ipv4/ip forward 


D.6 黑客 


本 节 给 出 应 用 探索 扫描 工具 的 黑客 方法 。 网 络 管理 员 可 以 使 用 这 些 工 具 来 确定 所 管理 网 络 的 弱点 
和 漏洞 ， 


漏洞 扫描 : Nessus 

什么 是 Nessus 

Nessus 是 一 种 用 于 Linux 社区 的 最 流行 的 扫描 程序 。 如 图 D-13 所 示 ，Nessus 具有 三 层 体系 结 
构 。 客 户 机 是 一 种 允许 管理 员 控 制 和 管理 Nessus 守护 进程 的 GUI 程序 。 汤 洞 利 用 方法 和 黑客 数据 库 
构建 到 Nessus 守护 进程 中 。Nessus 守护 进程 还 负责 扫描 目标 网 络 、 收 集 扫 描 结果 ， 并 向 客户 机 
报告 。 








Nessusd 





测试 的 网 络 
图 D-13 Nessus 的 网 络 体系 结构 


如 何 使 用 Nessus 
Nessus 由 4 个 部 分 组 成 : nessus liprary、libnasl、nessus core， 以 及 黑客 数据 库 ， 在 
Nessus 世界 中 称 为 blugin。 为 了 安装 Nessus， 需 要 从 Nessus 的 主页 上 下 载 这 几 部 分 ， 并 依次 进 
行 编译 和 安装 。 接 下 来 就 是 执行 命令 : 
% nessus-mkcert 
这 将 准备 一 张 在 Nessus 客户 机 和 守护 进程 之 间 通 信 中 使 用 的 证 书 。 
成 功 安装 后 ， 就 可 以 启动 Nessus 守护 进程 ， 即 nessusd， 并 通过 运行 以 下 命令 添加 第 一 个 有 效 
的 Nessus 管理 员 。 
“ nessus-adduser 
然后 你 就 可 以 在 客户 机 器 上 运行 Nessus 客户 机 ， 即 nessus， 并 将 客户 机 连接 到 守护 进程 上 。 
例子 
为 了 检查 目标 机 融 的 漏洞 ，Nessus 管理 员 首 先 使 用 Nessus 客户 机 选择 一 些 黑 客 工 具 。 可 以 在 选 
项 卡 上 按 下 plugin 按钮 并 在 选项 卡 窗口 上 选择 可 用 的 黑客 工具 。 选 择 窗口 的 屏幕 截图 如 图 D-14 所 示 。 
接 下 来 ， 在 Target 窗口 上 分 配 目标 机 带 并 按 下 start the scan 按钮 进行 扫描 。 扫 描 之 后 ， 就 会 弹出 一 个 报 
告 窗口 报告 扫描 结果 。 
提示 
9 安装 Nessus 的 动态 连接 库 Libnasl 之 后 ,将 需要 刷新 系统 范围 内 的 库 缓 存 。 这 既 可 以 通过 重 
启 也 可 以 通过 使 用 如 下 命令 来 完成 : 
“ldconfig /usr/local/lib 
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Nessus Setup 


选项 卡 显示 更 多 功能 
Plugin selection 


CSGlabuses X55 

CISCO 

Databases \ 4 丘 蛆 安 记 泪 
Deblan Local Securty Checks 支持 的 黑客 方法 
Defaylt Unix Accounts 

OEMNial of Service 


Enable all | Disable all Hilter. 


x Enable dependencies at runtime 3 Sient dependencies 


osTicket Support Address Do5 

Pp-sMmash Dos (ICMP 9 food) | ， 

‘ping ef death i i 
[art 6 下 详细 的 黑客 方法 
‘spank < 

‘up-imapproxy Utera! Dos Vuinerabitity 

vxworks ftpd buffer overnow Denial of Service 


顽 






Start the scan Load report 一 -一 动作 按钮 


网 D-14 Nessus 2 的 屏幕 截图 


se。 注意 ， 某 些 扫描 方法 会 危害 目标 主机 甚至 还 会 导致 它 谣 溃 

。 自从 Nessus 3 发 布 以 来 ， Nessus 就 不 再 是 开源 的 了 ， 市 仅 发 布 二 进 制 可 执行 代码 。 对 于 非 营 
利 的 组 织 仍然 可 以 免费 使 用 最 新 版 本 的 Nessus。 日 前 有 一 个 称 为 OpenVAs 的 分 支 项 日 是 开源 
的 并 处 在 开发 过 程 中 


进一步 阅读 


相关 书籍 
下 列 书籍 绑 盖 了 本 附录 中 提 到 的 大 多 数 主题 .第 一 本 书 介绍 了 如 何 使 用 GNU 工具 来 管理 网 络 . ， 
二 本 书 提供 了 Tinux TCPZPP 使 用 指导 。 第 二 本 书 ， 尽 管 是 1998 年 出 版 的 ， 但 它 仍然 是 学 习 网 络 编程 
经 典 课 本 
® Tobin Maginnis, Sair Linux and GNU Certification, Level 1: Networking, John Wiley & Sons, 2001. 
® P.Eyler, Networking Linux, a Practical Guide to TCP/IP, New Riders, 2001. 
e W.Richard Stevens, UNIX Network Programming, Prentice Hall, 1998%. 


在 线 链接 

下 面 我 们 总 结 了 在 本 附录 中 使 用 的 所 有 网 络 工 具 的 Web 站点。 当然 这 些 经 典 的 站 点 还 可 能 持续 存 
在 儿 年 
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3. ping, http: /A/directory. fsf. org/ project/ inetutils/ 

4. tracepath, http: A/www. skbuff. net/iputils 

5. tcpdump, http: A/www. tcpdump. org/ 

6. Wireshark, http: //www. wireshark. org/ 

7. ttep, htip: A/www. pcausa. com/ Utilities/ pcattep. htm 

8. WebBench 5.0, ftp: //ftp. pemag. com/ benchmarks/ webbench/ 

9. The Network Simulator-ns-2, http: /A/www. isi. edu/nsnam/ns/ 

10. NIST Net, http: //snad. ncsl. nist. gov/itg/nistnet/ 


11. Nessus, http: //www. nessus. org/ 


